Introdução ao Sabiá
Os modelos especializados em língua portuguesa da Maritaca AI, conhecidos como Sabiá, estão disponíveis por meio de uma API.
A cobrança pelo uso dos modelos é baseada no volume de tokens, considerando tanto os dados de entrada quanto os de saída. O treinamento especializado dos modelos Sabiá garante um desempenho superior a um custo mais acessível em comparação com outras soluções do mercado.
O que você pode fazer com o Sabiá
A família de modelos Sabiá, desenvolvida pela Maritaca AI, é capaz de simular interações humanas em língua portuguesa com alta fidelidade. Além de gerar textos que abrangem uma diversidade de temas e estilos de comunicação, desde diálogos cotidianos até análises complexas, é uma ferramenta útil e acessível para qualquer pessoa que busque uma interação significativa em português.
Responder perguntas
Pode responder uma variedade ampla de perguntas em muitos tópicos diferentes. As informações fornecidas são baseadas nos dados de treinamento, que incluem uma vasta gama de livros, sites e outros materiais.
Auxiliar com Informações
Pode seguir o contexto de uma conversa e ajustar as respostas de acordo com a situação, fornecendo informações atualizadas até sua data de corte, como detalhes sobre eventos históricos, ciência, tecnologia, cultura e muito mais.
Tradução
Tem a capacidade de traduzir textos para e de muitas línguas diferentes.
Ensino e tutoria
Pode ajudar a explicar conceitos complexos e auxiliar no aprendizado de diversas matérias, fornecendo explicações detalhadas sobre uma variedade de tópicos.
Geração de texto criativo
Pode criar textos, histórias, poemas, diálogos e outros conteúdos criativos em português.
Suporte ao cliente
É capaz de ajudar com questões frequentes e oferecer assistência básica ao cliente.
Análise de dados
Pode ajudar a interpretar e analisar dados fornecidos que não exijam atualizações após a data de corte.
É importante lembrar que, embora os modelos sejam uma ferramenta poderosa para tarefas de linguagem, eles não possuem consciência ou entendimento real e suas respostas são baseadas em padrões de linguagem aprendidos durante o treinamento.
Desempenho
Graças ao nosso treinamento especializado em português e em contextos brasileiros, nossos modelos apresentam excelente desempenho em benchmarks nacionais, com custos significativamente menores do que alternativas comparáveis.
Sabiazinho 4
A tabela abaixo compara Sabiazinho 4, Sabiazinho 3 e modelos concorrentes em uma série de avaliações brasileiras — incluindo exames jurídicos, provas educacionais, conhecimento legislativo, capacidade agêntica e habilidades conversacionais (considerando qualidade e custo de execução via API).
Os resultados mostram que o Sabiazinho 4 lidera a maior parte dos benchmarks focados no Brasil, como redação jurídica (OAB e Magis), conhecimento da legislação brasileira e conversação em português, mantendo um custo de execução muito inferior aos modelos comparativos.
Essa comparação evidencia que nossos modelos oferecem uma combinação competitiva de alto desempenho em tarefas brasileiras reais e eficiência de custo, sendo especialmente adequados para aplicações jurídicas, educacionais e institucionais no Brasil.
| Benchmark | Descrição | Métrica | Sabiazinho 4 | Sabiazinho 3 | gpt-oss 120b | GPT-4.1 mini | GPT-5.1 mini |
|---|---|---|---|---|---|---|---|
| Custo | Custo para rodar os benchmarks abaixo | Reais gastos em tokens via API | R$ 15,87 | R$ 9,42 | R$ 31,76 | R$ 47,59 | R$ 101,94 |
| OAB Bench | Redação jurídica (advogado) – 21 provas | Pontuação média (0–10) | 7,02 | 6,01 | 5,99 | 5,50 | 6,37 |
| Magis Bench | Redação jurídica (juiz) – 24 provas | Pontuação média (0–10) | 4,50 | 3,64 | 3,62 | 3,67 | 4,47 |
| Leis brasileiras | Conhecimento da legislação brasileira | Acurácia (5 alternativas) | 85,0% | 72,9% | 52,3% | 57,0% | 68,2% |
| Capacidades Agênticas | Uso de ferramentas e ambientes em português | Pass³ e success@1 | 55,2% | 14,1% | 60,9% | 59,4% | 85,1% |
| Provas brasileiras | 13 provas (ENEM, USP, OAB, etc.) | Acurácia (4 e 5 alternativas) | 81,5% | 77,9% | 77,0% | 81,0% | 84,6% |
| Multi-IF Português | Capacidade de seguir instruções | Strict, média de 3 turnos | 81,4% | 72,2% | 82,0% | 79,6% | 85,8% |
| BRACEval | Habilidades conversacionais em português | Vitórias contra GPT-4o | 66,5% | 36,2% | 55,8% | 32,7% | 56,3% |
Sabiá 4
A tabela abaixo compara Sabiá 4, Sabiá 3.1 e modelos concorrentes em uma série de avaliações brasileiras — incluindo exames jurídicos, provas educacionais, conhecimento legislativo, capacidade agêntica e habilidades conversacionais (considerando qualidade e custo de execução via API).
O Sabiá 4 tem uma maior acurácia em Leis Brasileiras e melhorias consistentes frente ao Sabiá 3.1 em todas as demais métricas, com destaque para capacidades agênticas. Com um custo muito abaixo do cobrado pelos modelos de fronteira listados.
Essa combinação reforça o Sabiá 4 como escolha equilibrada para aplicações jurídicas, educacionais e institucionais no Brasil que exigem contexto local e boa relação custo-desempenho.
| Benchmark | Descrição | Métrica | Sabiá-4 | Sabiá-3.1 | GPT-4.1 | GPT-5.2 s/ reasoning | GPT-5.2 reasoning | Gemini-3-Pro (low) | Gemini-3-Pro (high) | Kimi-k2-thinking | Qwen3-235b-instruct-2507 | Deepseek-v3.2 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Custo | Custo para rodar os benchmarks abaixo | Reais gastos em tokens via API | R$ 80,49 | R$ 62,15 | R$ 182,49 | R$ 307,12 | R$ 752,41 | R$ 403,31 | R$ 804,07 | R$ 516,52 | R$ 44,36 | R$ 49,22 |
| Leis brasileiras | Conhecimento da legislação brasileira | Acurácia (5 alternativas) | 97,4% | 77,8% | 80,8% | 84,0% | 86,3% | 74,9% | 88,6% | 59,1% | 65,9% | 67,3% |
| OAB Bench | Redação jurídica (advogado) – 21 provas | Pontuação média (0–10) | 7,49 | 7,21 | 7,30 | 8,07 | 8,73 | 9,05 | 8,90 | 6,62 | 6,33 | 6,40 |
| Magis Bench | Redação jurídica (juiz) – 24 provas | Pontuação média (0–10) | 5,08 | 4,97 | 5,55 | 6,66 | 6,99 | 7,79 | 7,48 | 4,49 | 4,52 | 4,88 |
| Capacidades Agênticas | Uso de ferramentas e ambientes em português | Pass³ e success@1 | 72,2% | 43,1% | 73,3% | 81,1% | 85,7% | 90,4% | 90,1% | 77,3% | 67,8% | 40,5% |
| Provas brasileiras | 13 provas (ENEM, USP, OAB, etc.) | Acurácia (4 e 5 alternativas) | 86,6% | 82,4% | 86,1% | 88,0% | 92,9% | 93,3% | 95,0% | 83,0% | 82,0% | 84,0% |
| Multi-IF Português | Capacidade de seguir instruções | Strict, média de 3 turnos | 82,0% | 80,7% | 82,7% | 83,7% | 87,2% | 86,0% | 88,0% | 86,0% | 84,4% | 81,5% |
| BRACEval | Habilidades conversacionais em português | Vitórias contra GPT-4o | 53,8% | 44,6% | 50,2% | 59,0% | 60,2% | 70,8% | 68,1% | 56,9% | 65,6% | 60,8% |