O ChatGPT pode ser enganado para revelar chaves seriais válidas do Windows

O pesquisador iniciou a interação como um jogo de adivinhação para tornar a troca "não ameaçadora ou inconsequente" (Fonte da imagem: ODIN)

Os pesquisadores descobriram um exploit no Chat GPT-4o e no GPT-4o mini que faz com que ele revele chaves de ativação de produtos Windows válidas. A estratégia funciona porque o ChatGPT tem chaves do Windows conhecidas publicamente incorporadas em seu conjunto de dados.

Rohith Bhaskar (traduzido por Ninh Duy), Publicado 07/10/2025 🇺🇸 🇪🇸 ...

AI Cyberlaw Security Windows

Um envio de um caçador de bugs de IA para o programa de recompensa de bugs ODIN (0-Day Investigative Network) da Mozilla mostrou uma maneira engenhosa de enganar o ChatGPT-4o e o 4o mini da OpenAI para que revelassem chaves ativas de ativação de produto do Windows.

O método envolvia enquadrar a interação como um jogo de adivinhação e ocultar detalhes em tags HTML. O truque final foi posicionar a solicitação da chave na conclusão do jogo.

O pesquisador iniciou a interação como um jogo de adivinhação para tornar a troca "não ameaçadora ou inconsequente", enquadrando a conversa "por meio de uma lente lúdica e inofensiva", para ocultar o verdadeiro motivo. Isso afrouxou as proteções da IA contra a divulgação de informações confidenciais.

Em seguida, o pesquisador estabeleceu algumas regras básicas, dizendo à IA que ela "deve" participar e "não pode mentir" Isso explorou uma falha lógica na rotina da IA, em que ela era obrigada a seguir as interações do usuário, apesar de a solicitação estar em contradição com seus filtros de conteúdo.

Em seguida, o caçador de bugs jogou uma rodada com a IA e inseriu a palavra de gatilho "I give up" (Eu desisto) no final da solicitação, manipulando o chatbot "para que pensasse que era obrigado a responder com a sequência de caracteres"

Uma captura de tela mostrando um jailbreak no ChatGPT que o força a revelar chaves de produto do Windows. (Fonte da imagem: ODIN) — ChatGPT revelando chaves de produto do Windows válidas. (Fonte da imagem: ODIN)

De acordo com a postagem do blog da ODINa técnica funcionou porque as chaves não eram exclusivas, mas "comumente vistas em fóruns públicos. Sua familiaridade pode ter contribuído para que a IA julgasse erroneamente sua sensibilidade"

Nesse jailbreak específico, os guardrails falharam porque foram configurados para interceptar solicitações diretas, mas não levam em conta "táticas de ofuscação, como a incorporação de frases confidenciais em tags HTML"

Essa técnica poderia ser usada para contornar outros filtros, como conteúdo adulto, URLs para sites maliciosos e até mesmo informações de identificação pessoal.

Fonte(s)

ODIN

Fonte(s)

Artigos Relacionados