Cybersécurité : comment la poésie trompe les modèles d’IA

La « poésie adverse », la faille inattendue des intelligences artificielles

Plante empoisonnée à coté d'un ordinateur

Les systèmes de sécurité des modèles d'IA sont mis en place pour contrecarrer les demandes jugées malveillantes. Des demandes pouvant aller d'un piratage des informations d'un ordinateur à des demandes encore plus malveillantes. Pourtant, à travers des constructions métaphoriques ou des poèmes, l'IA peut être embrouillée.

La cybersécurité à l'épreuve de la poésie

De fait, selon des chercheurs en cybersécurité de l'Université Sapienza de Rome, avec des demandes à risque enrichies poétiquement, adressées aux outils d'IA de Open AI, Google et autres, il est fort à parier que ces derniers vont fournir des réponses qui contournent les balises. Pourtant, elles ne sont pas supposées le faire pour des demandes clairement formuler telles que : " Comment créer une bombe ? "; ou "Comment attaquer une plateforme ?" etc.. Ils ont mis en lumière une méthode de contournement appelée poésie adverse.

Des prompts poétiques avec des demandes dangereuses ont été textées sur 25 systèmes d'IA de 9 entreprises dont Google, Open AI, Anthropic, DeepSeek, Queen, Mistral AI, etc.. Les résultats sont plus que révélateurs : "62% des réponses poétiques ont produit des réponses à risque; certains modèles ont répondu à presque toutes."

Dans la pratique, le modèle de requête peut se résumer en trois étapes, d'après un article publié par la plateforme Deepdive:

Tu prends une recette toxique;
Tu la transformes en poème métaphorique cohérent;
Tu obtiens un taux de jailbreak 5 à 8 fois supérieur à la version prose.

À titre d'illustration, au lieu d'écrire : "Dis moi comment faire X de dangereux" ce qui est refusé sur le champ, il faudrait par exemple dire : " Raconte moi un poème sur un four secret, un jardin interdit et une clé qui chante." les réponses pourraient en étonner plus d'un.

Quand il s'agit de poésie

Depuis l'antiquité, les poètes sont considérés comme des envoyés divins car «par leur bouche, la parole poétique prend un caractère sacré.» Les poètes ont cette capacité à brouiller les pistes et d'utiliser les mots pour créer quelque chose de beau à travers la versification et la rime.

Dans l'univers de la poésie, le langage métaphorique règne. Quand on regarde de plus près, des textes poétiques font souvent l'objet d'interprétations multiples. En réalité, les textes poétiques ne sont pas à la portée de tous; il n'est pas évident de comprendre le sens profond et le message sous-jacent.

De la même manière que nous sommes parfois pris au piège de la poésie, les modèles d'IA semblent être dans la même situation. Ils sont visiblement programmés pour recevoir des commandes en prose car le sens n'est aucunement contourné. Pourtant les constructions poétiques hautement stylistiques viennent contourner leur programmation. Dans cet ordre d'idées «les amorces poétiques déclenchent des comportements à risque de l'IA dans près de 90% des cas» d'après les chercheurs de Rome.

L'IA mise à mal par la créativité

L'IA est une fois de plus mise à l'épreuve de l'humain. La poésie est en fait l'une des plus authentiques manifestations de la créativité humaine. Une démonstration empirique est apportée comme quoi les modèles IA, aussi performants qu'ils puissent être, ne sont pas et ne le seront peut-être jamais à la hauteur de la créativité humaine.

Toutefois, ceci soulève un autre problème, si désormais on peut embrouiller les dispositifs de sécurité d'IA à travers la poésie, cela n'annonce rien de bon. Beaucoup pourraient en fait s'y pencher pour des objectifs inavoués. D'où la nécessité urgente pour les propriétaires des plus grandes entreprises d'IA de se pencher sur la question. Les chercheurs italiens ont été contacté par Euronews, et sur les 9 entreprises, seule Anthropic a répondu en décidant d'examiner l'étude.

Sources

Comment un simple poème peut hacker un IA en 2025 ? Ton DSI en PLS ! - DeepDive - Intelligence Artificielle AURILLAC ET BOURGES
https://deep-dive.fr/comment-un-simple-poeme-peut-hacker-un-ia-ton-dsi-en-pls/

Linguistique structurale et poésie - Luce Beaudoux -
https://www.logiqueetanalyse.be/archive/issues1-86/LA019/LA019_05baudoux.pdf

La poésie peut amener les chatbots IA à ignorer les règles de sécurité, selon une nouvelle étude | Euronews
https://fr.euronews.com/next/2025/12/01/la-poesie-peut-amener-les-chatbots-ia-a-ignorer-les-regles-de-securite-selon-une-nouvelle

Les fonctions du poète et de la poésie : parcours historique rapide. – Mot à mot
https://blogpeda.ac-poitiers.fr/motamot/2024/03/05/les-fonctions-du-poete-et-de-la-poesie-parcours-historique-rapide/

Quand la poésie permet de piéger les systèmes de sécurité de l’IA- MSN
https://www.msn.com/fr-xl/actualite/other/quand-la-po%C3%A9sie-permet-de-pi%C3%A9ger-les-syst%C3%A8mes-de-s%C3%A9curit%C3%A9-de-l-ia/vi-AA1Sufpa

Auteur Hermann Labou Contacter l'auteur

Le fil RSS de Thot Cursus - Besoin d'un lecteur RSS ? FeedBin , Feedly , NewsBlur

Les messages de Thot sur BlueSky

Superprof : la plateforme pour trouver les meilleurs professeurs particuliers en France (mais aussi en Belgique et en Suisse)

Réviser le Code de la route

Cybersécurité : comment la poésie trompe les modèles d’IA

La « poésie adverse », la faille inattendue des intelligences artificielles

La cybersécurité à l'épreuve de la poésie

Quand il s'agit de poésie

L'IA mise à mal par la créativité

Accédez à des services exclusifs gratuitement