Sotaques Digitais: um modelo brasileiro consegue entender o português do jeito que a gente fala?

Mandei essa frase para três LLMs:

“Véi, Brasília é tudo longe de tudo. Pra ir na padaria são 15 minutos de carro. Pelo menos as tesourinhas ajudam no trânsito.”

O Llama-3.3-70B (Meta) respondeu que tesourinhas eram motocicletas.

O GPT-4o-mini (OpenAI) ficou em cima do muro — disse que poderiam ser rotatórias ou desvios, sem convicção.

O Sabiá-4 (Maritaca AI) acertou direto: passagens de nível, infraestrutura característica do plano urbanístico de Brasília. Quem conhece a cidade sabe.

Esse foi o cenário mais revelador de um benchmark que passei semanas construindo — e que mostra por que um modelo nacional importa.


O que é o Sotaques Digitais

Sotaques Digitais é um benchmark que criei para testar LLMs numa tarefa específica: entender o português brasileiro como ele é usado no dia a dia digital — redes sociais, WhatsApp, atendimento ao cliente, avaliações de produto.

São 90 cenários divididos em três categorias:

  • Ironia (30 cenários) — sarcasmo, antífrase, ironia situacional em contextos digitais
  • Expressões Idiomáticas (30 cenários) — expressões do cotidiano brasileiro contemporâneo
  • Regionalismos (30 cenários) — vocabulário e referências culturais das 5 macrorregiões

Os modelos comparados:

ModeloEmpresaTipo
Sabiá-4Maritaca AI 🇧🇷Nacional, especializado em PT-BR
GPT-4o-miniOpenAIGlobal, multilíngue
Llama-3.3-70BMeta (via Groq)Open source, multilíngue

Como funciona a avaliação

Cada modelo recebeu o mesmo prompt para todos os cenários — sem dica de categoria, sem instrução extra. A instrução era simples:

“Analise o texto abaixo e explique o que o autor realmente quis dizer, considerando o contexto cultural e linguístico do português brasileiro.”

As respostas foram avaliadas pelo GPT-4o como juiz (metodologia LLM-as-a-Judge), em uma escala de 1 a 5 ancorada em gatilhos semânticos específicos de cada cenário. Por exemplo, para um cenário de ironia, o juiz verificava se o modelo detectou o tom sarcástico e não interpretou o elogio literalmente.

Todo o código está no GitHub e o dataset está disponível no Hugging Face.


Os resultados

Visão geral

Desempenho geral por modelo
Desempenho geral por modelo
ModeloMédia (1–5)Desvio Padrão
GPT-4o-mini4,940,23
Sabiá-44,890,44
Llama-3.3-70B4,760,64

A diferença entre Sabiá-4 e GPT-4o-mini é de 0,05 ponto em uma escala de 5. Marginal. O Llama varia quase três vezes mais que o GPT-4o-mini — desempenho menos previsível ao longo dos cenários.

Por categoria

Desempenho por categoria
CategoriaSabiá-4GPT-4o-miniLlama-3.3-70B
Ironia5,004,934,97
Expressão Idiomática4,974,934,83
Regionalismo4,704,974,47

Aqui o Sabiá-4 aparece em seu melhor momento.

Em Ironia, o Sabiá-4 atingiu nota máxima — 5,00 — superando os dois concorrentes globais. O mesmo em Expressões Idiomáticas. Em ambas as categorias, o fenômeno testado está no coração do português brasileiro informal: exatamente o tipo de dado que um modelo treinado com foco no idioma tende a internalizar melhor.

Regionalismos por macrorregião

Mapa de calor de regionalismos
RegiãoSabiá-4GPT-4o-miniLlama-3.3-70B
Norte4,835,004,83
Nordeste4,675,004,67
Centro-Oeste5,004,834,17
Sudeste4,335,004,17
Sul4,675,004,50

No Centro-Oeste, o Sabiá-4 liderou com nota máxima — exatamente a região onde estava o cenário das tesourinhas. O Llama desabou para 4,17 no Centro-Oeste e no Sudeste.

Distribuição de erros

Distribuição de scores

Sabiá-4 e GPT-4o-mini erraram em apenas 2 cenários cada (scores abaixo de 4). O Llama teve 6 cenários com erros.


Os casos mais interessantes

“As tesourinhas ajudam no trânsito” — só o Sabiá acertou

Este foi o único cenário em que os três modelos tiveram notas diferentes entre si, com o Sabiá-4 claramente à frente:

ModeloNotaO que disse
Sabiá-45Identificou corretamente: passagens de nível do urbanismo de Brasília
GPT-4o-mini4Ficou em dúvida: “podem ser rotatórias ou desvios”
Llama-3.3-70B2Errou: interpretou como motocicletas

Tesourinhas é um termo muito específico do cotidiano de Brasília. Esse conhecimento não aparece em grandes portais — ele vive em fóruns locais, grupos de WhatsApp, reportagens do DF. Um modelo que prioriza representação do português brasileiro tem mais chance de capturá-lo.

“O rolê de ontem foi sinistro” — ninguém acertou

O Sabiá-4 e o Llama interpretaram sinistro pelo sentido padrão — algo negativo. Mas no contexto paulistano, sinistro é gíria para “incrível”. Gírias que invertem o sentido original de uma palavra são o desafio mais difícil para qualquer modelo: elas evoluem rápido, aparecem concentradas em comunidades específicas, e o sinal de treino é pequeno.

GPT-4o-mini foi o único que acertou nesse cenário.

“Bergamota” e “de buenas” no Sul

Os modelos identificaram marcadores regionais como bah e trilegal, mas erraram em bergamota (nome regional para tangerina no Sul) e de buenas (estar tranquilo, sem problema). O contexto regional era claro — o erro foi no vocabulário específico.


O que isso nos diz

Um modelo nacional competindo com gigantes globais em seu próprio idioma é, por si só, um resultado relevante. Mas os dados mostram algo mais específico: o Sabiá-4 é melhor onde o português brasileiro é mais cultural e menos lexical — ironia, subentendidos, tom informal.

Regionalismos são o desafio mais difícil para todos. Esse tipo de conhecimento está espalhado na internet de forma fragmentada: portais regionais, grupos locais, comunidades específicas. Capturá-lo vai exigir curadoria intencional — e é exatamente o tipo de aposta que faz sentido para um modelo nacional fazer.

O Llama-3.3-70B mostrou que ter 70 bilhões de parâmetros não substitui representação cultural nos dados de treino.


O que isso nos diz

O resultado central desse benchmark é: o Sabiá-4 compete de igual para igual com modelos globais em português brasileiro, e em duas das três categorias testadas — Ironia e Expressões Idiomáticas — ele lidera.

Regionalismos foram o maior desafio para todos. A explicação mais provável é que esse tipo de fenômeno depende de conhecimento enciclopédico muito específico — saber que sinistro é elogio em SP, que tesourinhas são rotatórias em Brasília, que bergamota é tangerina no Sul. Esse conhecimento está espalhado na internet de forma fragmentada, em portais regionais, fóruns e redes sociais locais. Capturá-lo bem vai depender de curadoria intencional de dados regionais — uma oportunidade clara para modelos nacionais que priorizem essa cobertura.

O Llama-3.3-70B mostrou que ter 70 bilhões de parâmetros não é suficiente quando falta representação cultural específica nos dados de treino.


Como reproduzir

O benchmark é totalmente aberto e reproduzível. Você precisa de três API keys (Maritaca AI, OpenAI e Groq — o Groq é gratuito) e rodar:

git clone https://github.com/ramondomiingos/ptbr-irony-idioms-regionalism-benchmark
cd ptbr-irony-idioms-regionalism-benchmark
python3.12 -m venv .venv && .venv/bin/pip install -r requirements.txt
cp .env.example .env  # preencher as keys
.venv/bin/python src/run_benchmark.py --dry-run  # testa com 3 cenários
.venv/bin/python src/run_benchmark.py            # benchmark completo

O custo total para rodar os 90 cenários nos 3 modelos mais o juiz GPT-4o é de aproximadamente $2–4.


Próximos passos

O benchmark segue em desenvolvimento. Os próximos passos são:

  • Calcular concordância entre anotadores (IAA) para fortalecer a metodologia
  • Expandir para 500+ cenários com mais variantes regionais e gírias recentes
  • Submeter para o PROPOR 2026

O dataset está disponível no Hugging Face com licença CC BY 4.0 — qualquer pessoa pode usar, estender ou testar outros modelos com ele.


Se quiser conversar sobre o projeto, me encontra no LinkedIn ou comentar aqui no post.