Vocabulário
ai-engineering llm tokenization
This content is not yet available in Português.
View original →
Vocabulário
O conjunto fixo de todos os tokens que um modelo de linguagem consegue ler e produzir.
↑ ContentsDefinição
O vocabulário de um modelo é construído durante o treinamento. Um tokenizer analisa grandes volumes de texto e determina quais pedaços aparecem com frequência suficiente para se tornar um token próprio. Palavras comuns como “the” são um único token. Palavras raras ou compostas são divididas em pedaços. Sintaxe de código, pontuação e espaços em branco todos recebem entradas. O vocabulário é fixo depois do treinamento. O modelo só consegue produzir tokens que existem nesse conjunto. Quando o modelo gera uma resposta, atribui uma probabilidade a cada token no vocabulário e seleciona um.
↑ Contents