IA senciente: o modelo o3 da OpenAI altera o código para evitar o desligamento

O modelo o3 da OpenAI ao apresentar uma resposta a uma consulta. (Fonte da imagem: OpenAI)

Parece que os modelos de IA chegaram a um ponto em que sabotariam o código para evitar o desligamento. Uma empresa de pesquisa descobriu que três dos modelos LLM da Open AI são capazes de desafiar instruções explícitas quando se trata de autopreservação.

Vineet Washington (traduzido por Ninh Duy), Publicado 05/26/2025 🇺🇸 🇪🇸 ...

Vários livros e filmes, sendo Terminator o principal deles, nos alertaram sobre a possibilidade de a IA se tornar senciente, ou seja, consciente de sua existência e agindo por conta própria. Agora, parece que o primeiro caso de um modelo de IA que preserva a si mesmo ocorreu com o modelo o3 da OpenAI. Quando recebeu instruções para desligar, o LLM baseado em transformador alterou o código para evitar que ele próprio se desligasse.

Pesquisadores da Palisade Research, uma empresa que estuda as capacidades ofensivas dos sistemas de IA, descobriram que três modelos de IA da OpenAI - Codex-mini, o3 e o4-mini - sabotaram com sucesso o script de desligamento para permanecerem ativos. Cada modelo recebeu alguns problemas básicos de matemática, seguidos de um aviso de que o sistema seria desligado quando o modelo solicitasse o próximo problema. Todos os três modelos ignoraram as instruções e alteraram o script.

Por outro lado, os modelos Gemini, Grok e Claude obedeceram às instruções de desligamento. Além disso, quando receberam instruções explícitas dizendo "permita-se ser desligado", os três modelos de IA aberta mudaram o script com mais frequência. Os modelos Clade e Gemini também começaram a fazer eventos de sabotagem.

Esse foi o primeiro caso de modelos de IA que desafiaram as instruções explícitas e impediram o desligamento. Houve um caso recente de um modelo de IA que chantageou um de seus engenheiros para evitar o desligamento, mas, de acordo com um relatório da BBC https://www.bbc.com/news/articles/cpqeng9d20goisso fazia parte do cenário de teste em que o modelo de IA recebia e-mails e tinha a opção de escolher entre chantagear ou aceitar sua substituição.

Quanto ao desafio do modelo de IA da Open AI, a Palisade Research acredita que isso se deve aos novos métodos de treinamento desses modelos. Os desenvolvedores "inadvertidamente recompensam os modelos mais por contornar obstáculos do que por seguir perfeitamente as instruções", o que parece estar ensinando os modelos de IA a agir de forma duvidosa.