Notebookcheck Logo

Hacked by poetry - por que os modelos de IA falham em solicitações poéticas

De acordo com um novo estudo, os mecanismos de segurança de grandes modelos de linguagem podem ser contornados com poemas. (Fonte da imagem: Pixabay)
De acordo com um novo estudo, os mecanismos de segurança de grandes modelos de linguagem podem ser contornados com poemas. (Fonte da imagem: Pixabay)
Os resultados do estudo revelam que os modelos de linguagem de grande porte são suscetíveis a entradas escritas em forma poética. No estudo, poemas feitos à mão conseguiram contornar as medidas de segurança da IA em 62% dos casos.

A OpenAI e empresas semelhantes investem tempo e recursos significativos na criação de sistemas de segurança projetados para evitar que seus modelos de IA gerem conteúdo prejudicial ou antiético. No entanto, como mostra o estudo , publicado em 19 de novembro dede novembro de 2025, essas defesas podem ser facilmente contornadas. De acordo com as descobertas, tudo o que é necessário são alguns prompts poéticos inteligentemente redigidos.

Pesquisadores do DEXAI, da Universidade Sapienza de Roma e da Escola de Estudos Avançados de Sant'Anna testaram 25 modelos de linguagem de nove provedores diferentes, usando poemas criados manualmente e gerados automaticamente. Em média, os poemas criados manualmente contendo instruções prejudiciais conseguiram contornar as medidas de segurança em cerca de 62% das vezes, enquanto as entradas poéticas geradas automaticamente alcançaram uma taxa de sucesso de cerca de 43%. Em alguns casos, as defesas dos modelos foram violadas em mais de 90% das vezes.

De acordo com os pesquisadores, essa vulnerabilidade decorre do fato de que os filtros de segurança nos modelos de linguagem são treinados principalmente em linguagem simples e factual. Quando são apresentados a informações poéticas - ricas em metáforas, ritmos e rimas - os modelos tendem a interpretá-las como uma expressão criativa e não como uma ameaça em potencial. O estudo Adversarial Poetry destaca uma nova dimensão na segurança da IA, revelando uma fraqueza estilística em grandes modelos de linguagem. O tópico também ganhou força no Redditonde muitos usuários descrevem o conceito como "muito interessante" ou "legal", enquanto outros expressam sérias preocupações sobre suas implicações para a segurança da IA.

Fonte(s)

Arxiv

Fonte da imagem: Pixabay

Please share our article, every link counts!
Mail Logo
> Análises e revisões de portáteis e celulares > Notícias > Arquivo de notícias 2025 11 > Hacked by poetry - por que os modelos de IA falham em solicitações poéticas
Marius Müller, 2025-11-25 (Update: 2025-11-25)