Você pergunta a mesma coisa para os cinco maiores modelos de IA do mundo e recebe respostas diferentes. Não em dilemas filosóficos — em checagens de fatos do mundo real. Foi isso que um estudo recente da Lenz Research encontrou ao submeter mil alegações enviadas por usuários reais a um painel de LLMs de fronteira.
Em 67% dos casos (672 de 1.000), pelo menos um modelo discordou da maioria — ou nem maioria houve. O dado expõe um problema desconfortável: não dá para tratar esses sistemas como juízes intercambiáveis.
O que foi feito
A equipe pegou 1.000 alegações recentes submetidas por usuários a uma plataforma de fact-checking e pediu para cada um dos cinco principais LLMs classificar em quatro categorias: Verdadeiro, Majoritariamente Verdadeiro, Enganoso ou Falso. Só uma resposta pode estar certa por alegação — então qualquer divergência significa que ao menos um modelo errou.

O resultado, segundo a Lenz, é um índice de concordância (Krippendorff’s α ordinal) de 0,639. Isso indica acordo “não trivial, mas limitado”: os vereditos não são aleatórios, mas estão longe de serem consistentes.
Um detalhe metodológico importante: essas alegações dificilmente apareceram nos dados de treinamento com um gabarito pronto. Ou seja, os modelos estão sendo forçados a julgar, não a recuperar uma resposta memorizada de benchmark.
O que muda
O estudo é cuidadoso ao dizer que a maioria do painel não é a verdade. Às vezes o modelo dissidente é quem está certo. Mas a estatística tem um lado duro: se assumirmos, no melhor cenário possível, que a resposta mais popular é a correta, ainda assim uma fatia significativa dos modelos errou em cada caso de divergência.
Isso bate de frente com a narrativa de que os modelos de ponta já estariam num platô de capacidade onde “todos chegam à mesma resposta”. Não chegam — pelo menos não em tarefas que exigem julgamento sobre informação recente, ambígua ou contestada.
Vale lembrar que fact-checking é um terreno especialmente sensível. Uma alegação política pode ser tecnicamente verdadeira e enganosa ao mesmo tempo, dependendo do contexto. A escolha entre “Enganoso” e “Majoritariamente Verdadeiro” envolve interpretação editorial — e os modelos foram treinados por equipes diferentes, com critérios diferentes de moderação.
Por que isso importa pra você
Se você usa ChatGPT, Gemini, Claude ou outro assistente para conferir uma informação antes de compartilhar, o estudo é um alerta direto: a resposta que você recebeu pode estar simplesmente errada, e trocar de modelo pode dar outra resposta — sem que isso signifique que a segunda esteja certa.
Para empresas que estão plugando LLMs em pipelines de moderação de conteúdo, suporte ou compliance, o recado é ainda mais incômodo. A prática comum de usar “um LLM como juiz” para validar saídas de outro LLM fica fragilizada quando os próprios juízes discordam dois terços das vezes.
Não é o caso de descartar essas ferramentas — elas continuam úteis para resumir, rascunhar e explorar ideias. Mas tratar saída de LLM como verdade factual, especialmente em assuntos sensíveis, segue sendo uma má ideia. O estudo da Lenz só dá nome e número a algo que muitos usuários já desconfiavam: não existe um oráculo de IA, existem cinco vozes que frequentemente discordam entre si.
Fonte: Lenz · Imagem de capa: Lenz