
Pesquisa
Quando os maiores LLMs discordam: estudo mostra divergência em 67% das checagens
Pesquisa da Lenz testou 1.000 alegações reais em cinco modelos de ponta. Em dois terços dos casos, eles não chegaram ao mesmo veredito.
. Aí cada página precisa ser republicada. -->

Pesquisa da Lenz testou 1.000 alegações reais em cinco modelos de ponta. Em dois terços dos casos, eles não chegaram ao mesmo veredito.

Discussão no r/MachineLearning aponta falhas metodológicas sérias no famoso gráfico de “horizontes de tempo” da METR.

Em teste de ataque cibernético multi-etapas, GPT-5.5 resolveu em 11 minutos um desafio que levou 12 horas para um especialista humano. Custo: US$ 1,73.