Skip to content
← Back to Glossary

Vocabulário

ai-engineering llm tokenization

Vocabulário

O conjunto fixo de todos os tokens que um modelo de linguagem consegue ler e produzir.

↑ Contents

Definição

O vocabulário de um modelo é construído durante o treinamento. Um tokenizer analisa grandes volumes de texto e determina quais pedaços aparecem com frequência suficiente para se tornar um token próprio. Palavras comuns como “the” são um único token. Palavras raras ou compostas são divididas em pedaços. Sintaxe de código, pontuação e espaços em branco todos recebem entradas. O vocabulário é fixo depois do treinamento. O modelo só consegue produzir tokens que existem nesse conjunto. Quando o modelo gera uma resposta, atribui uma probabilidade a cada token no vocabulário e seleciona um.

↑ Contents

Fonte

↑ Contents

Relacionados