Por que os Principais Benchmarks de IA Estão Falhando — e Como a Ciência Social Poderia Corrigi-los

As capacidades da IA crescem mais rápido do que nossa capacidade de medi-las.

O SWE-Bench, um benchmark de referência para IA de codificação, está enfrentando críticas à medida que desenvolvedores otimizam modelos para o desempenho em testes em vez da resolução de problemas no mundo real — um sintoma de uma “crise de avaliação” maior na IA. Críticos argumentam que muitos benchmarks padrão da indústria carecem de validade, o que significa que eles não medem de forma confiável o que afirmam medir e podem ser manipulados por meio de atalhos e relatórios seletivos.1

Em resposta, pesquisadores estão recorrendo a metodologias das ciências sociais, enfatizando definições rigorosas e avaliações específicas de tarefas em vez de medidas vagas de “inteligência geral”. À medida que as capacidades da IA crescem mais rápido do que nossa capacidade de medi-las, as ferramentas destinadas a guiar o progresso podem estar desviando-o.

Leia mais aqui: https://www.technologyreview.com/2025/05/08/1116192/how-to-build-a-better-ai-benchmark