. Aí cada página precisa ser republicada. -->

Etiqueta: benchmarks

Pesquisa

Quando os maiores LLMs discordam: estudo mostra divergência em 67% das checagens

Pesquisa da Lenz testou 1.000 alegações reais em cinco modelos de ponta. Em dois terços dos casos, eles não chegaram ao mesmo veredito.

O gráfico viral da METR sobre IA tem erros graves, diz comunidade

Discussão no r/MachineLearning aponta falhas metodológicas sérias no famoso gráfico de “horizontes de tempo” da METR.

GPT-5.5 supera humano e modelo rival em simulação de ataque cibernético

Em teste de ataque cibernético multi-etapas, GPT-5.5 resolveu em 11 minutos um desafio que levou 12 horas para um especialista humano. Custo: US$ 1,73.