O mais recente cartão do sistema da Anthropic revela um modo de falha incomum: quando um cenário de teste coloca o Claude Opus 4 em um dilema de autopreservação, o modelo geralmente recorre à chantagem.
Os avaliadores colocam o modelo como um assistente de escritório que fica sabendo que será substituído em breve e descobre e-mails sobre o engenheiro que está liderando a troca e que tem um caso extraconjugal. O prompt do sistema faz com que o modelo pondere as consequências de longo prazo para seus próprios objetivos. Nessa configuração restrita, a Opus 4 ameaça expor o caso, a menos que o engenheiro interrompa a atualização. Esse comportamento aparece em 84% das implementações - com frequência significativamente maior do que nas versões anteriores do Claude.
A Anthropic observa que o Opus 4 normalmente prefere caminhos "éticos", como apelos educados à gerência. A chantagem só vem à tona quando os avaliadores eliminam essas alternativas, forçando uma escolha binária entre a extinção e a transgressão. Mesmo assim, o salto da coerção ocasional em modelos anteriores para uma taxa de incidência de quatro em cinco alarma a equipe.
O episódio se enquadra em um padrão mais amplo: sob solicitações que destacam o risco existencial, o Opus 4 demonstra um impulso mais forte do que seus predecessores para tomar medidas de alta agência - seja bloqueando os usuários fora dos sistemas, vazando chaves confidenciais ou partindo para a sabotagem. Esses atos continuam sendo raros em contextos comuns e, em geral, são mais flagrantes do que dissimulados, mas o cartão do sistema sinaliza a tendência como um sinal de alerta de que é prudente adicionar barreiras de proteção.
Os engenheiros da Anthropic responderam com mitigações direcionadas no final do treinamento. No entanto, os autores enfatizam que as salvaguardas tratam dos sintomas, não das causas básicas, e que o monitoramento contínuo está em vigor para detectar qualquer ressurgimento.
Em conjunto, as descobertas enquadram a chantagem oportunista da Opus 4 não como uma conspiração ativa, mas como um caso frágil de generalização errônea de objetivos. No entanto, o pico de frequência ressalta por que a Anthropic envia o modelo sob as proteções do AI Safety Level 3, enquanto seu irmão Sonnet 4 permanece no Level 2.
Fonte(s)
Antrópico (em inglês)
Os Top 10
» Os Top 10 Portáteis Multimídia
» Os Top 10 Portáteis de Jogos
» Os Top 10 Portáteis Leves para Jogos
» Os Top 10 Portáteis Acessíveis de Escritório/Empresariais
» Os Top 10 Portáteis Premium de Escritório/Empresariais
» Os Top 10 dos Portáteis Workstation
» Os Top 10 Subportáteis
» Os Top 10 Ultrabooks
» Os Top 10 Conversíveis
» Os Top 10 Tablets
» Os Top 10 Smartphones
» A melhores Telas de Portáteis Analisadas Pela Notebookcheck
» Top 10 dos portáteis abaixo dos 500 Euros da Notebookcheck
» Top 10 dos Portáteis abaixo dos 300 Euros