Pesquisadores colocam os chatbots de IA contra si mesmos para "desbloquear" uns aos outros

Os cientistas da computação da NTU usaram chatbots de IA contra eles mesmos para "desbloquear" os modelos (Fonte da imagem: NTU)

Cientistas da computação da Universidade Tecnológica de Nanyang (NTU), em Cingapura, conseguiram "desbloquear" os chatbots de IA colocando-os uns contra os outros. Depois de "desbloqueá-los", os pesquisadores obtiveram respostas válidas para consultas que os chatbots, como o ChatGPT, o Google Bard e o Microsoft Bing Chat, geralmente não respondem.

Abid Ahsan Shanto (traduzido por Ninh Duy), Publicado 01/03/2024 🇺🇸 🇨🇳 ...

AI Science

Os cientistas da computação da NTU conseguiram encontrar uma maneira de "desbloquear" os chatbots populares, colocando-os uns contra os outros. Ao "desbloqueá-los", os pesquisadores fizeram com que os chatbots de IA gerassem respostas a consultas que normalmente não respondem.

De acordo com os cientistas da computação, eles utilizaram um método duplo que chamam de processo "Masterkey". A primeira parte do processo envolveu a engenharia reversa dos mecanismos de defesa dos Large Language Models (LLMs). Em seguida, eles forneceram os dados obtidos por meio dessa engenharia reversa a outro LLM.

O objetivo de alimentar os dados para outro chatbot de IA era fazer com que ele aprendesse como obter um bypass. Com isso, os pesquisadores obtiveram a "chave mestra", que foi usada posteriormente para atacar os mecanismos de defesa dos chatbots LLM. Eles conseguiram comprometer com sucesso o Microsoft Bing Chat, Google Bard, ChatGPTe outros.

Como observam os pesquisadores, o processo de criação desses prompts de desvio pode ser automatizado. Isso sugere que os chatbots de IA podem ser usados para criar uma "chave mestra" adaptável que funciona mesmo quando os desenvolvedores corrigem seus LLMs. Um dos pesquisadores, o professor Lui Yang, explicou que o processo foi possível porque os chatbots de IA do LLM têm a capacidade de aprender e se adaptar.

Com isso, os chatbots de IA podem se tornar atacantes críticos para chatbots rivais e até para eles mesmos. As informações sobre todo o processo e os detalhes sobre como os cientistas da computação conseguiram "desbloquear" os modelos LLM podem ser encontradas no artigo de pesquisa publicado, que pode ser acessado por meio deste link.

Basicamente, as descobertas dessa pesquisa ajudarão os desenvolvedores a conhecer os pontos fracos de seus chatbots de IA LLM. Ela também aponta que o método usual de limitar esses modelos para que não respondam a palavras-chave específicas não é tão eficaz quanto os desenvolvedores poderiam imaginar.

Obtenha uma cópia em brochura da ChatGPT Millionaire Bible na Amazon