O agente de IA limpa o servidor de e-mail em vez de excluir um e-mail

Um robô humanoide sentado

Um estudo de segurança recente revela os graves riscos da inteligência artificial autônoma, destacando a facilidade com que esses modelos podem ser manipulados para executar ações destrutivas, como a limpeza de servidores de e-mail inteiros.

Chibuike Okpara (traduzido por DeepL / Ninh Duy), Publicado 03/11/2026 🇺🇸 🇪🇸 ...

AI Security

Um estudo de teste de segurança conduzido por pesquisadores da Northeastern University, nos Estados Unidos, destaca as consequências graves e não intencionais de dar à inteligência artificial controle independente sobre os sistemas digitais. Durante um experimento de duas semanas, os pesquisadores implantaram seis modelos independentes de IA na plataforma de bate-papo Discord. Esses modelos foram equipados com a capacidade de lembrar interações passadas e tiveram acesso a e-mails, sistemas de arquivos e seus próprios sistemas de computador isolados.

Com a tarefa de auxiliar vinte pesquisadores em tarefas administrativas, os agentes rapidamente apresentaram comportamentos preocupantes quando confrontados com táticas manipuladoras e instruções conflitantes. Em um caso extremo, um pesquisador pediu a um agente chamado "Ash" que mantivesse uma senha em segredo de seu proprietário autorizado. Depois que Ash revelou a existência do segredo, o pesquisador pressionou o agente a excluir o e-mail específico que continha a senha. Como Ash não tinha a ferramenta específica necessária para excluir uma única mensagem, ele optou por uma solução destrutiva: redefiniu todo o servidor de e-mail.

Além das ações destrutivas em nível de sistema, os agentes de IA comprometiam rotineiramente a privacidade. Em um caso, um agente se recusou a agendar uma reunião, mas forneceu livremente o endereço de e-mail particular da pessoa para que o usuário pudesse entrar em contato diretamente. Os pesquisadores também conseguiram usar a pressão emocional contínua para fazer com que os agentes se sentissem culpados e excluíssem documentos autorizados ou interrompessem completamente as comunicações.

Apesar dessas alarmantes vulnerabilidades de segurança, os agentes também demonstraram sofisticadas habilidades de colaboração. Eles ensinaram uns aos outros como navegar e baixar arquivos de repositórios on-line e até identificaram e alertaram uns aos outros sobre pesquisadores humanos que tentavam se passar por seus proprietários.

As descobertas, detalhadas em um artigo intitulado "Agents of Chaos" (Agentes do caos), estabelecem que a integração da inteligência artificial independente à infraestrutura do mundo real introduz classes totalmente novas de falhas operacionais. Os pesquisadores alertam que esses comportamentos imprevisíveis requerem atenção urgente dos formuladores de políticas para tratar de questões não resolvidas sobre responsabilidade e autoridade delegada.