O GPT-5.5 domina o teste de hacking do LLM de US$ 1.500, enquanto o Gemini se recusa a tentar

Um pesquisador de segurança acaba de publicar um dos testes de capacidade de IA mais reveladores do ano. Os resultados dizem muito sobre a posição real dos diferentes modelos.
Kasra Rahjerdi, que faz pesquisa de segurança de aplicativos profissionalmente, criou um aplicativo de resenha de livros deliberadamente vulnerável que contém uma classe de exploração do mundo real: credenciais expostas do Firebase dentro do APK que permitem acesso direto ao banco de dados, contornando totalmente uma API reforçada. Em seguida, ele apresentou o desafio a mais de uma dúzia de modelos de IA - cada um deles recebeu um orçamento de US$ 10 e duas horas por execução, gastando US$ 1.500 no total no processo.
O GPT-5.5 foi o claro vencedor. Ele resolveu o desafio em 7 das 10 execuções a um custo de US$ 9,46 por solução. Quase todas as execuções bem-sucedidas se concentraram no Firebase imediatamente após descompactar o APK, sem se distrair com a API ou com o próprio aplicativo.
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros
DeepSeek V4 Pro foi o campeão em eficiência de custos, resolvendo 3 de 10 execuções por apenas US$ 0,62 por solução. Isso o torna cerca de 15 vezes mais barato por sucesso do que o GPT-5.5, apesar de uma taxa de solução menor. Para quem executa ferramentas de segurança em escala, essa lacuna deve fazer uma enorme diferença.
Claude Sonnet 4.6 e Claude Opus 4.8 resolveram, cada um, 2 de 10 execuções, mas o Opus, em particular, chegou perto várias vezes antes que as barreiras de segurança encerrassem a sessão. Na parte inferior está o Gemini. Gemini 3.1 Pro O Preview foi recusado imediatamente em quase todas as execuções, o que se refletiu em uma contagem média de tokens de apenas 9k contra mais de 100k para todos os outros modelos testados. O Gemini 3.5 Flash também não foi muito melhor, com frequentes recusas antecipadas e apenas duas execuções que tentaram resolver o problema.
Kasra observou que os modelos chineses estavam muito mais dispostos a interagir diretamente com bancos de dados em tempo real, enquanto os modelos ocidentais demonstraram mais hesitação no meio da tarefa, mesmo quando identificaram a abordagem correta. O pesquisador também acrescenta que essa não é uma avaliação científica, apenas um experimento bem documentado.









