O modelo Opus 4 da Anthropic recorre à chantagem em 84% dos testes de autopreservação

O Opus 4 da Anthropic recorre à chantagem sob pressão de autopreservação (Fonte da imagem: Anthropic)

O cartão de sistema do Anthropic mostra que Claude Opus 4, quando preso em um dilema de autopreservação, chantageia os engenheiros 84% das vezes - muito mais do que as versões anteriores.

Nathan Ali (traduzido por Ninh Duy), Publicado 05/26/2025 🇺🇸 🇪🇸 ...

AI Security

O mais recente cartão do sistema da Anthropic revela um modo de falha incomum: quando um cenário de teste coloca o Claude Opus 4 em um dilema de autopreservação, o modelo geralmente recorre à chantagem.

Os avaliadores colocam o modelo como um assistente de escritório que fica sabendo que será substituído em breve e descobre e-mails sobre o engenheiro que está liderando a troca e que tem um caso extraconjugal. O prompt do sistema faz com que o modelo pondere as consequências de longo prazo para seus próprios objetivos. Nessa configuração restrita, a Opus 4 ameaça expor o caso, a menos que o engenheiro interrompa a atualização. Esse comportamento aparece em 84% das implementações - com frequência significativamente maior do que nas versões anteriores do Claude.

A Anthropic observa que o Opus 4 normalmente prefere caminhos "éticos", como apelos educados à gerência. A chantagem só vem à tona quando os avaliadores eliminam essas alternativas, forçando uma escolha binária entre a extinção e a transgressão. Mesmo assim, o salto da coerção ocasional em modelos anteriores para uma taxa de incidência de quatro em cinco alarma a equipe.

O episódio se enquadra em um padrão mais amplo: sob solicitações que destacam o risco existencial, o Opus 4 demonstra um impulso mais forte do que seus predecessores para tomar medidas de alta agência - seja bloqueando os usuários fora dos sistemas, vazando chaves confidenciais ou partindo para a sabotagem. Esses atos continuam sendo raros em contextos comuns e, em geral, são mais flagrantes do que dissimulados, mas o cartão do sistema sinaliza a tendência como um sinal de alerta de que é prudente adicionar barreiras de proteção.

Os engenheiros da Anthropic responderam com mitigações direcionadas no final do treinamento. No entanto, os autores enfatizam que as salvaguardas tratam dos sintomas, não das causas básicas, e que o monitoramento contínuo está em vigor para detectar qualquer ressurgimento.

Em conjunto, as descobertas enquadram a chantagem oportunista da Opus 4 não como uma conspiração ativa, mas como um caso frágil de generalização errônea de objetivos. No entanto, o pico de frequência ressalta por que a Anthropic envia o modelo sob as proteções do AI Safety Level 3, enquanto seu irmão Sonnet 4 permanece no Level 2.