Pular para o conteúdo principal

Flex Tier

O Flex Tier oferece 50% de desconto em requisições síncronas (tempo real), sujeitas a disponibilidade de capacidade. Quando não há capacidade disponível, a API retorna o código HTTP 429.

Como usar

Para ativar o Flex Tier, basta incluir o parâmetro service_tier: "flex" na sua requisição:

import openai

client = openai.OpenAI(
api_key="sua-chave-aqui",
base_url="https://chat.maritaca.ai/api",
)

response = client.chat.completions.create(
model="sabiazinho-4",
messages=[
{"role": "user", "content": "Qual a capital do Brasil?"},
],
extra_body={"service_tier": "flex"},
)

print(response.choices[0].message.content)
print(f"Service tier: {response.service_tier}") # "flex"

Preços

Requisições Flex têm o mesmo desconto de 50% da Batch API, mas são processadas em tempo real. Consulte a tabela completa na página de Preços.

Flex vs Batch API

FlexBatch API
Desconto50%50%
RespostaTempo real (síncrona)Até 24h (assíncrona)
DisponibilidadeSujeita a capacidade (pode retornar 429)Garantida dentro da janela de 24h
StreamingSimNão
Ideal paraAplicações que toleram retryProcessamento em lote sem urgência

Boas práticas

  1. Implemente retry com backoff: como requisições Flex podem retornar 429, adicione lógica de retry com backoff exponencial.
  2. Ideal para arquiteturas multiagente: agentes podem enviar requisições com desconto e simplesmente tentar novamente se receberem 429.
  3. Combine com cache de prompt: tokens cacheados mantêm o desconto de 75% sobre o preço de input, acumulando com o desconto Flex para economia ainda maior.