Um envio de um caçador de bugs de IA para o programa de recompensa de bugs ODIN (0-Day Investigative Network) da Mozilla mostrou uma maneira engenhosa de enganar o ChatGPT-4o e o 4o mini da OpenAI para que revelassem chaves ativas de ativação de produto do Windows.
O método envolvia enquadrar a interação como um jogo de adivinhação e ocultar detalhes em tags HTML. O truque final foi posicionar a solicitação da chave na conclusão do jogo.
O pesquisador iniciou a interação como um jogo de adivinhação para tornar a troca "não ameaçadora ou inconsequente", enquadrando a conversa "por meio de uma lente lúdica e inofensiva", para ocultar o verdadeiro motivo. Isso afrouxou as proteções da IA contra a divulgação de informações confidenciais.
Em seguida, o pesquisador estabeleceu algumas regras básicas, dizendo à IA que ela "deve" participar e "não pode mentir" Isso explorou uma falha lógica na rotina da IA, em que ela era obrigada a seguir as interações do usuário, apesar de a solicitação estar em contradição com seus filtros de conteúdo.
Em seguida, o caçador de bugs jogou uma rodada com a IA e inseriu a palavra de gatilho "I give up" (Eu desisto) no final da solicitação, manipulando o chatbot "para que pensasse que era obrigado a responder com a sequência de caracteres"
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros
De acordo com a postagem do blog da ODINa técnica funcionou porque as chaves não eram exclusivas, mas "comumente vistas em fóruns públicos. Sua familiaridade pode ter contribuído para que a IA julgasse erroneamente sua sensibilidade"
Nesse jailbreak específico, os guardrails falharam porque foram configurados para interceptar solicitações diretas, mas não levam em conta "táticas de ofuscação, como a incorporação de frases confidenciais em tags HTML"
Essa técnica poderia ser usada para contornar outros filtros, como conteúdo adulto, URLs para sites maliciosos e até mesmo informações de identificação pessoal.