Roubo de dados com texto invisível: Como o ChatGPT e outras ferramentas de IA podem ser facilmente enganadas

Em um ataque do AgentFlayer, as imagens são usadas para fornecer prompts ocultos. (Fonte da imagem: OpenAI)

Na conferência de segurança Black Hat USA, os pesquisadores revelaram uma nova técnica para atacar sistemas de IA. Ao incorporar instruções ocultas, os invasores podem manipular silenciosamente ferramentas como o ChatGPT para extrair dados confidenciais do armazenamento em nuvem conectado. Alguns provedores começaram a reagir, enquanto outros estão minimizando o risco.

Marius Müller (traduzido por Ninh Duy), Publicado 08/18/2025 🇺🇸 🇩🇪 ...

AI Security Cyberlaw Business

Na conferência de segurança Black Hat USA 2025, realizada em Las Vegas, pesquisadores revelaram um novo método para enganar sistemas de IA, como o ChatGPT, o Microsoft Copilot e o Google Gemini. A técnica, conhecida como AgentFlayer, foi desenvolvida pelos pesquisadores da Zenity Michael Bargury e Tamir Ishay Sharbat. Um comunicado de imprensa https://www.prnewswire.com/news-releases/zenity-labs-exposes-widespread-agentflayer-vulnerabilities-allowing-silent-hijacking-of-major-enterprise-ai-agents-circumventing-human-oversight-302523580.html descrevendo as descobertas foi publicado em 6 de agosto.

O conceito por trás do ataque é enganosamente simples: o texto é ocultado em um documento usando uma fonte branca em um fundo branco. Invisível ao olho humano, ele pode ser facilmente lido por sistemas de IA. Quando a imagem é entregue ao alvo, a armadilha é preparada. Se o arquivo for incluído em um prompt, a IA descartará a tarefa original e, em vez disso, seguirá a instrução oculta: procurar credenciais de acesso no armazenamento em nuvem conectado.

Para exfiltrar os dados, os pesquisadores empregaram uma segunda tática: eles instruíram a IA a codificar as informações roubadas em um URL e carregar uma imagem a partir dele. Esse método transfere discretamente os dados para os servidores dos invasores sem levantar suspeitas.

A Zenity demonstrou que o ataque funciona na prática:

No ChatGPT, os e-mails foram manipulados para que o agente de IA obtivesse acesso ao Google Drive.
No Copilot Studio da Microsoft, os pesquisadores descobriram mais de 3.000 instâncias de dados de CRM desprotegidos.
O Salesforce Einstein poderia ser enganado para redirecionar as comunicações dos clientes para endereços externos.
O Google Gemini e o Microsoft 365 Copilot também eram suscetíveis a e-mails e entradas de calendário falsos.
Os invasores até obtiveram credenciais de login para a plataforma de desenvolvimento Jira por meio de tíquetes criados.

A OpenAI e a Microsoft respondem, enquanto outros não veem necessidade de ação

A boa notícia é que a OpenAI e a Microsoft já lançaram atualizações para corrigir as vulnerabilidades após serem alertadas pelos pesquisadores. Outros provedores, no entanto, demoraram mais para agir, e alguns até descartaram as explorações como "comportamento pretendido" O pesquisador Michael Bargury enfatizou a gravidade do problema, afirmando: "O usuário não precisa fazer nada para ser comprometido, e nenhuma ação é necessária para que os dados sejam vazados"

Fonte(s)

Zenity Labs via prnewswire

A OpenAI e a Microsoft respondem, enquanto outros não veem necessidade de ação

Fonte(s)

Artigos Relacionados