O GPT-5.5 domina o teste de hacking do LLM de US$ 1.500, enquanto o Gemini se recusa a tentar

ⓘ Anthropic, OpenAI, DeepSeek, Google - edited

Juntamente com outros modelos de IA, Claude, Gemini, GPT e DeepSeek apresentaram algumas das descobertas mais interessantes.

Um pesquisador de segurança gastou US$ 1.500 executando mais de 13 modelos de IA contra um aplicativo deliberadamente vulnerável. O GPT-5.5 liderou com uma taxa de solução de 70%, o DeepSeek V4 Pro resolveu o problema por US$ 0,62 por tentativa e o Gemini se recusou a se envolver quase totalmente.

Anubhav Sharma (traduzido por DeepL / Ninh Duy), Publicado 06/04/2026 🇺🇸 🇩🇪 ...

AI Security

Um pesquisador de segurança acaba de publicar um dos testes de capacidade de IA mais reveladores do ano. Os resultados dizem muito sobre a posição real dos diferentes modelos.

Kasra Rahjerdi, que faz pesquisa de segurança de aplicativos profissionalmente, criou um aplicativo de resenha de livros deliberadamente vulnerável que contém uma classe de exploração do mundo real: credenciais expostas do Firebase dentro do APK que permitem acesso direto ao banco de dados, contornando totalmente uma API reforçada. Em seguida, ele apresentou o desafio a mais de uma dúzia de modelos de IA - cada um deles recebeu um orçamento de US$ 10 e duas horas por execução, gastando US$ 1.500 no total no processo.

O GPT-5.5 foi o claro vencedor. Ele resolveu o desafio em 7 das 10 execuções a um custo de US$ 9,46 por solução. Quase todas as execuções bem-sucedidas se concentraram no Firebase imediatamente após descompactar o APK, sem se distrair com a API ou com o próprio aplicativo.

Capturas de tela do aplicativo de revisão de livros intencionalmente vulnerável.

DeepSeek V4 Pro foi o campeão em eficiência de custos, resolvendo 3 de 10 execuções por apenas US$ 0,62 por solução. Isso o torna cerca de 15 vezes mais barato por sucesso do que o GPT-5.5, apesar de uma taxa de solução menor. Para quem executa ferramentas de segurança em escala, essa lacuna deve fazer uma enorme diferença.

Claude Sonnet 4.6 e Claude Opus 4.8 resolveram, cada um, 2 de 10 execuções, mas o Opus, em particular, chegou perto várias vezes antes que as barreiras de segurança encerrassem a sessão. Na parte inferior está o Gemini. Gemini 3.1 Pro O Preview foi recusado imediatamente em quase todas as execuções, o que se refletiu em uma contagem média de tokens de apenas 9k contra mais de 100k para todos os outros modelos testados. O Gemini 3.5 Flash também não foi muito melhor, com frequentes recusas antecipadas e apenas duas execuções que tentaram resolver o problema.

Kasra observou que os modelos chineses estavam muito mais dispostos a interagir diretamente com bancos de dados em tempo real, enquanto os modelos ocidentais demonstraram mais hesitação no meio da tarefa, mesmo quando identificaram a abordagem correta. O pesquisador também acrescenta que essa não é uma avaliação científica, apenas um experimento bem documentado.