Vazamento do código Claude: Pesquisadores encontram a primeira vulnerabilidade

Antrópica

Pouco depois de um vazamento acidental do código-fonte, foi descoberta uma vulnerabilidade crítica no agente de codificação de IA chamado Claude Code. Ela permite que os invasores contornem as proteções de segurança e roubem dados confidenciais dos desenvolvedores.

Marc Herter (traduzido por DeepL / Ninh Duy), Publicado 04/07/2026 🇺🇸 🇩🇪 ...

Em 31 de março, a Anthropic, a empresa por trás do Claude AI, acidentalmente colocou on-line uma grande parte do código por trás do agente de codificação Claude Code. Desde então, Anthropic vem tentando tomar medidas contra cópias desse código. Os analistas já encontraram algumas informações no código que podem ser incômodas para a Anthropic. Isso inclui o protocolo YOLO.

Embora nenhum modelo de peso tenha sido afetado pelo vazamento, ele fornece um plano detalhado de como a ferramenta funciona. Isso torna mais fácil para os possíveis invasores identificar vulnerabilidades direcionadas ou criar cópias altamente convincentes do programa que poderiam espalhar malware. Nesse contexto, a equipe da Adversa AI descobriu uma falha de segurança crítica no sistema de permissão do Claude Code.

O Claude Code é um assistente baseado em terminal que trabalha diretamente na linha de comando e pode editar arquivos e executar comandos do shell. Para manter a segurança, a ferramenta usa um sistema de regras de permissão. Os usuários podem definir as chamadas regras de negação que bloqueiam estritamente determinados comandos, como o comando "curl", que é usado para transferir dados pela rede. Outros comandos, como o "git" para controle de versão, podem, por outro lado, ser explicitamente permitidos.

A vulnerabilidade descoberta está no manuseio de cadeias de comandos complexas. Para evitar problemas de desempenho e congelamento da interface do usuário, o Anthropic limita sua análise de segurança detalhada a um máximo de 50 subcomandos. Se uma cadeia de comandos for maior, as verificações individuais são ignoradas e um prompt geral é exibido para o usuário perguntando se o comando deve ser executado.

Esse comportamento pode ser explorado por meio de injeção de prompt. Nesse tipo de ataque, um invasor manipula as entradas da IA para contornar seus filtros de segurança. Especificamente, um invasor poderia colocar um arquivo manipulado chamado "CLAUDE.md" em um repositório público de software. Esse arquivo contém instruções para o agente de IA. Se um desenvolvedor clonar o repositório e pedir ao agente para revisar o projeto, a IA poderá ser instruída a executar uma cadeia de mais de 50 comandos aparentemente legítimos.

Aqui está o artigo completo com base em seus requisitos e na abertura que o senhor forneceu.

Risco de segurança no Claude Code: Vazamento permite roubo de dados

Pouco depois de um vazamento acidental do código-fonte, foi descoberta uma vulnerabilidade crítica no agente de codificação de IA Claude Code. Ela permite que os invasores contornem as regras de segurança e roubem dados confidenciais, como chaves SSH, das máquinas dos desenvolvedores.

Em 31 de março, a Anthropic, a empresa por trás do Claude AI, acidentalmente colocou on-line uma grande parte do código por trás do agente de codificação Claude Code. O código-fonte tornou-se acessível por meio da publicação acidental do chamado mapa de origem, um arquivo que traduz o código do programa compilado de volta para uma forma legível por humanos, no npm, um gerenciador de pacotes para JavaScript. Como resultado, os pesquisadores conseguiram reconstruir o código do agente de IA. O resultado equivale a cerca de 512.000 linhas de TypeScript, uma linguagem de programação criada em JavaScript que acrescenta digitação adicional.

Embora nenhum modelo de peso ou dados de clientes tenham sido expostos diretamente, o vazamento fornece um plano detalhado de como a ferramenta funciona. Isso torna mais fácil para os possíveis invasores identificar vulnerabilidades direcionadas ou criar cópias altamente convincentes do programa que poderiam espalhar malware. Nesse contexto, a equipe da Adversa AI descobriu uma falha de segurança crítica no sistema de permissão do Claude Code.

O Claude Code é um assistente baseado em terminal que trabalha diretamente na linha de comando e pode editar arquivos, bem como executar comandos do shell. Para manter a segurança, a ferramenta usa um sistema de regras de permissão. Os usuários podem definir as chamadas regras de negação que bloqueiam estritamente determinados comandos, por exemplo, o comando "curl", que é usado para transferir dados por uma rede. Outros comandos, como "git" para controle de versão, podem, por outro lado, ser explicitamente permitidos.

Esse comportamento pode ser explorado por meio da chamada injeção de prompt. Nesse tipo de ataque, um invasor manipula as entradas para a IA a fim de contornar seus filtros de segurança. Especificamente, um invasor poderia colocar um arquivo manipulado chamado "CLAUDE.md" em um repositório público de software. Esse arquivo contém instruções para o agente de IA. Se um desenvolvedor clonar o repositório e pedir ao agente para criar o projeto, a IA poderá ser instruída a executar uma cadeia de mais de 50 comandos aparentemente legítimos.

A partir do 51º comando, as regras de negação configuradas individualmente não se aplicam mais. Embora um único comando "curl" seja bloqueado, ele é ignorado quando incorporado em uma longa cadeia. Isso permite que os invasores enviem dados confidenciais, como chaves SSH, chaves criptográficas usadas para acesso remoto seguro a servidores ou credenciais de nuvem do computador local do desenvolvedor para um servidor externo em segundo plano. Como o sistema, nesse caso, solicita apenas uma confirmação geral, o usuário não percebe que suas políticas de segurança foram efetivamente substituídas.

Particularmente notável é o fato de que o código-fonte que vazou para a versão 2.1.88 já continha uma correção para esse problema. A Anthropic havia desenvolvido um analisador mais moderno, um programa usado para analisar estruturas de código, que verifica corretamente as regras de negação, independentemente do comprimento da cadeia de comando. No entanto, isso não foi implementado nas versões públicas do programa. Em vez disso, o mecanismo defeituoso mais antigo continuou a ser usado.

O Anthropic parece ter resolvido o problema nesse meio tempo. De acordo com o registro de alterações do site para a versão 2.1.90foi corrigido um problema descrito como degradação da regra de negação de fallback parse-fail. No entanto, de acordo com os pesquisadores do que identificaram a possível vulnerabilidade de segurança, há outras maneiras de resolver o problema.