Um benchmark recente colocou o GPT-5.5 contra o modelo Mythos e contra especialistas humanos em uma simulação de ataque cibernético em várias etapas. O resultado chamou atenção: o modelo da OpenAI levou apenas 11 minutos e gastou US$ 1,73 em um desafio que tomou 12 horas de trabalho de um analista experiente.
Os números foram divulgados em postagem no reddit.com e rapidamente viralizaram em comunidades técnicas, reacendendo o debate sobre o uso de modelos de linguagem em segurança ofensiva.
O que foi testado
A avaliação simula cenários de red team, em que o agente precisa encadear várias ações: reconhecimento, exploração de vulnerabilidades, escalonamento de privilégios e movimentação lateral. Não é só responder uma pergunta — é tomar decisões em sequência, ajustando o plano conforme o ambiente reage.

Segundo os dados compartilhados, o GPT-5.5 ficou ligeiramente à frente do Mythos, modelo concorrente focado em tarefas de cibersegurança. A diferença para o humano, porém, foi muito maior — não só em tempo, mas em custo operacional. Um especialista cobra centenas de dólares pelas mesmas 12 horas. O modelo cobrou menos de dois.
O que muda na prática
Vale o ceticismo de sempre: simulação não é o mundo real. Ambientes de teste são controlados, com objetivos claros e sem o ruído de uma rede corporativa de verdade. Modelos de linguagem ainda erram, alucinam comandos e podem travar quando enfrentam defesas que não viram durante o treinamento.
Mesmo assim, o salto de desempenho importa. Se um modelo consegue executar de forma autônoma uma cadeia de ataque que antes exigia um profissional sênior, a economia de operações ofensivas — legítimas ou não — muda de patamar. Empresas de pentest podem rodar mais testes, mais rápido. Criminosos também.
Esse é o ponto desconfortável. A mesma capacidade que ajuda equipes defensivas a encontrar falhas antes dos atacantes pode ser usada por quem quer invadir. O custo de US$ 1,73 por execução baixa drasticamente a barreira de entrada para tentativas em massa, automatizadas, contra alvos pequenos que normalmente não justificariam o tempo de um humano.
Por que isso importa pro leitor
Se você administra um sistema, mantém um site, ou só usa internet para coisas importantes — banco, trabalho, dados pessoais —, o recado é direto: o custo de atacar está caindo mais rápido que o custo de defender. Configurações fracas, senhas reaproveitadas e softwares desatualizados, que antes passavam despercebidos por serem alvos pouco interessantes, ficam mais expostos quando a varredura automática vira commodity.
Para empresas, fica mais urgente acompanhar a evolução desses agentes. Times de segurança que ainda dependem só de ferramentas tradicionais correm o risco de ficar para trás. Defesa também precisa de IA — e isso significa investimento, treinamento e revisão de processos.
Por fim, é importante lembrar que esses números vêm de um post em rede social, sem peer review nem detalhamento completo da metodologia. Benchmarks de IA frequentemente são otimizados para mostrar o melhor cenário possível. Até que haja avaliação independente, vale tratar os resultados como indicativo de tendência, não como prova definitiva. Mas a tendência, essa, parece clara.
Fonte: reddit.com · Imagem de capa: Foto de Roman Synkevych no Unsplash