Glossário
Tokens
Unidades de texto (≈4 caracteres). Contam para custo e limite de contexto.
- Palavra, parte de palavra ou caractere
- Custo por milhão de tokens
- Prompt + resposta deve caber no limite
Janela de contexto
Tamanho máximo de texto que o modelo “lembra” por requisição.
- Prompt + saída ≤ limite do modelo
- Janelas maiores = diálogos mais coerentes
- Exceder o limite retorna erro
Temperatura
Controla a aleatoriedade da geração.
- Alta: mais criativo e variado
- Baixa: mais seguro e consistente
- Prefira baixo para respostas determinísticas
TTFT
Tempo para o primeiro token aparecer.
- Depende de modelo, utilização do servidor e tamanho do prompt
- Baixo TTFT indica que o modelo responde rapidamente, o que é essencial para uma experiência de usuário fluida