Um teste publicado no Hacker News afirma que o GPT-5.5, da OpenAI, alucina cerca de três vezes mais do que o GLM-5.2, modelo aberto sob licença MIT. Se o número se confirmar em avaliações independentes, é um baita constrangimento para quem cobra caro pelo argumento de ser o estado da arte.
A piada óbvia é que ‘maior nem sempre é melhor’, mas o ponto sério é outro: a corrida por modelos gigantes parece estar batendo num teto incômodo, enquanto alternativas abertas chegam mais leves e, em alguns benchmarks, mais confiáveis. Vale lembrar que benchmark único não fecha discussão — métricas de alucinação variam bastante conforme o método.
Ainda assim, é mais um sinal de que o fosso entre fechado e aberto está encolhendo. Via Hacker News.
Fonte: arrowtsx.dev · Imagem de capa: Foto de Mohamed Nohassi no Unsplash