Introdução ao Sabiá

Os modelos especializados em língua portuguesa da Maritaca AI, conhecidos como Sabiá, estão disponíveis por meio de uma API.

A cobrança pelo uso dos modelos é baseada no volume de tokens, considerando tanto os dados de entrada quanto os de saída. O treinamento especializado dos modelos Sabiá garante um desempenho superior a um custo mais acessível em comparação com outras soluções do mercado.

O que você pode fazer com o Sabiá

A família de modelos Sabiá, desenvolvida pela Maritaca AI, é capaz de simular interações humanas em língua portuguesa com alta fidelidade. Além de gerar textos que abrangem uma diversidade de temas e estilos de comunicação, desde diálogos cotidianos até análises complexas, é uma ferramenta útil e acessível para qualquer pessoa que busque uma interação significativa em português.

Responder perguntas

Pode responder uma variedade ampla de perguntas em muitos tópicos diferentes. As informações fornecidas são baseadas nos dados de treinamento, que incluem uma vasta gama de livros, sites e outros materiais.

Auxiliar com Informações

Pode seguir o contexto de uma conversa e ajustar as respostas de acordo com a situação, fornecendo informações sobre eventos históricos, ciência, tecnologia, cultura e muito mais.

Tradução

Tem a capacidade de traduzir textos para e de muitas línguas diferentes.

Ensino e tutoria

Pode ajudar a explicar conceitos complexos e auxiliar no aprendizado de diversas matérias, fornecendo explicações detalhadas sobre uma variedade de tópicos.

Geração de texto criativo

Pode criar textos, histórias, poemas, diálogos e outros conteúdos criativos em português.

Suporte ao cliente

É capaz de ajudar com questões frequentes e oferecer assistência básica ao cliente.

Análise de dados

Pode ajudar a interpretar e analisar dados fornecidos.

É importante lembrar que, embora os modelos sejam uma ferramenta poderosa para tarefas de linguagem, eles não possuem consciência ou entendimento real e suas respostas são baseadas em padrões de linguagem aprendidos durante o treinamento.

Desempenho

Graças ao nosso treinamento especializado em português e em contextos brasileiros, nossos modelos apresentam excelente desempenho em benchmarks nacionais, com custos significativamente menores do que alternativas comparáveis.

Sabiá 4 Thinking

Sabiá 4 Thinking é o modelo de raciocínio da família Sabiá: alcança qualidade de fronteira em português e contextos brasileiros pelo menor custo entre os modelos avaliados. Em relação ao Sabiá 4, traz ganhos expressivos em uso de ferramentas, tarefas jurídicas e qualidade das respostas.

A tabela abaixo traz o desempenho do Sabiá 4 Thinking, benchmark a benchmark, frente aos principais modelos de fronteira, em três frentes: chamada de função e agentes, jurídico e tarefas gerais. Os concorrentes (Gemini 3.1 Pro, GPT-5.4 e Opus 4.8) foram avaliados com reasoning effort medium. Rodar a suíte completa custa, no Sabiá 4 Thinking, menos da metade do GPT-5.4 e cerca de um terço do Opus 4.8. Em negrito, o melhor de cada linha.

Sabiá 4 Thinking — desempenho por benchmark vs. modelos de fronteira
Benchmark	Sabiá 4 Thinking	Gemini 3.1 Pro(effort medium)	GPT-5.4(effort medium)	Opus 4.8(effort medium)
Custo total · R$ para rodar a suíte	R$ 206	R$ 281	R$ 449	R$ 590
Chamada de função / Agentes
Pix-Bench · interno	100%	100%	100%	97%
Ticket-Bench · público	98%	100%	98%	96,7%
MARCA · público	83,9%	84,8%	93,2%	91,5%
Jurídico
OAB (juiz) · interno	90,1%	91,1%	91,6%	90,1%
Redação jurídica · interno	77,7%	75,9%	72,8%	74,8%
Extração de processos · interno	92,3%	91,4%	95,7%	94,3%
Geral
BLUEX · público	93%	96,8%	95,7%	95,4%
ENAMED · público	94,4%	98,9%	97,8%	97,8%
POSCOMP · público	90,8%	94,6%	94,6%	96,2%
PoETa v2 · público	83,7%	85%	83,3%	86,3%
Sotaques Digitais · público	94,6%	97,6%	97,8%	97,8%

Sabiá 4

Leia o artigo técnico (arXiv) para mais detalhes sobre o Sabiá 4.

A tabela abaixo compara Sabiá 4, Sabiá 3.1 e modelos concorrentes em uma série de avaliações brasileiras — incluindo exames jurídicos, provas educacionais, conhecimento legislativo, capacidade agêntica e habilidades conversacionais (considerando qualidade e custo de execução via API).

O Sabiá 4 tem uma maior acurácia em Leis Brasileiras e melhorias consistentes frente ao Sabiá 3.1 em todas as demais métricas, com destaque para capacidades agênticas. Com um custo muito abaixo do cobrado pelos modelos de fronteira listados.

Essa combinação reforça o Sabiá 4 como escolha equilibrada para aplicações jurídicas, educacionais e institucionais no Brasil que exigem contexto local e boa relação custo-desempenho.

Comparação de desempenho e custo em benchmarks brasileiros
Benchmark	Descrição	Métrica	Sabiá-4	Sabiá-3.1	GPT-4.1	GPT-5.2 s/ reasoning	GPT-5.2 reasoning	Gemini-3-Pro (low)	Gemini-3-Pro (high)	Kimi-k2-thinking	Qwen3-235b-instruct-2507	Deepseek-v3.2
Custo	Custo para rodar os benchmarks abaixo	Reais gastos em tokens via API	R$ 80,49	R$ 62,15	R$ 182,49	R$ 307,12	R$ 752,41	R$ 403,31	R$ 804,07	R$ 516,52	R$ 44,36	R$ 49,22
Leis brasileiras	Conhecimento da legislação brasileira	Acurácia (5 alternativas)	97,4%	77,8%	80,8%	84,0%	86,3%	74,9%	88,6%	59,1%	65,9%	67,3%
OAB Bench	Redação jurídica (advogado) – 21 provas	Pontuação média (0–10)	7,49	7,21	7,30	8,07	8,73	9,05	8,90	6,62	6,33	6,40
Magis Bench	Redação jurídica (juiz) – 24 provas	Pontuação média (0–10)	5,08	4,97	5,55	6,66	6,99	7,79	7,48	4,49	4,52	4,88
Capacidades Agênticas	Uso de ferramentas e ambientes em português	Pass³ e success@1	72,2%	43,1%	73,3%	81,1%	85,7%	90,4%	90,1%	77,3%	67,8%	40,5%
Provas brasileiras	13 provas (ENEM, USP, OAB, etc.)	Acurácia (4 e 5 alternativas)	86,6%	82,4%	86,1%	88,0%	92,9%	93,3%	95,0%	83,0%	82,0%	84,0%
Multi-IF Português	Capacidade de seguir instruções	Strict, média de 3 turnos	82,0%	80,7%	82,7%	83,7%	87,2%	86,0%	88,0%	86,0%	84,4%	81,5%
BRACEval	Habilidades conversacionais em português	Vitórias contra GPT-4o	53,8%	44,6%	50,2%	59,0%	60,2%	70,8%	68,1%	56,9%	65,6%	60,8%

O que você pode fazer com o Sabiá​