Pular para o conteúdo principal

Glossário

Tokens

Unidades de texto (≈4 caracteres). Contam para custo e limite de contexto.

  • Palavra, parte de palavra ou caractere
  • Custo por milhão de tokens
  • Prompt + resposta deve caber no limite
Janela de contexto

Tamanho máximo de texto que o modelo “lembra” por requisição.

  • Prompt + saída ≤ limite do modelo
  • Janelas maiores = diálogos mais coerentes
  • Exceder o limite retorna erro
Temperatura

Controla a aleatoriedade da geração.

  • Alta: mais criativo e variado
  • Baixa: mais seguro e consistente
  • Prefira baixo para respostas determinísticas
TTFT

Tempo para o primeiro token aparecer.

  • Depende de modelo, utilização do servidor e tamanho do prompt
  • Baixo TTFT indica que o modelo responde rapidamente, o que é essencial para uma experiência de usuário fluida