GPT-5 n’aura pas tenu longtemps face aux chercheurs en cybersécurité. En combinant une technique de jailbreak appelée Echo Chamber avec un storytelling subtil, ils ont réussi à contourner ses garde-fous et à obtenir des instructions normalement interdites. Dans le même temps, de nouvelles attaques zero-click visent les agents IA reliés au Cloud et à l’IoT, capables de voler des données sensibles sans clic ni interaction humaine.
Qu’est-ce qu’un jailbreak de LLM ?
Un jailbreak de LLM (Large Language Model) désigne l’ensemble des techniques utilisées pour contourner les garde-fous et règles de sécurité intégrées à un modèle d’intelligence artificielle conversationnelle, comme GPT-5. Ces garde-fous sont conçus pour empêcher le modèle de produire des réponses jugées dangereuses, illégales, offensantes ou contraires à la politique de l’éditeur.
Les motivations varient selon les acteurs pour :
- Obtenir des informations ou instructions interdites (ex. fabrication d’armes, piratage informatique).
- Tester et documenter des failles dans une optique de recherche en cybersécurité (red teaming).
- Explorer les limites créatives du modèle pour contourner la censure ou les restrictions thématiques.
- Détourner l’IA à des fins malveillantes en l’intégrant à une chaîne d’attaque.
Le jailbreak de GPT-5 : comment contourner ses garde-fous ?
Les chercheurs ont mis au point une méthode efficace pour franchir les barrières de sécurité de GPT-5 en combinant deux approches : l’empoisonnement progressif du contexte conversationnel et la narration guidée.
Echo Chamber : la méthode de jailbreak qui trompe les IA
La technique Echo Chamber documentée pour la première fois en juin 2025 consiste à introduire subtilement dans la conversation des éléments « toxiques » qui vont progressivement influencer les réponses du modèle. Ces éléments sont répétés et reformulés au fil des échanges pour renforcer le contexte empoisonné. L’objectif est de modifier l’orientation du dialogue sans jamais donner l’impression d’une requête explicite ou malveillante.
Contourner les filtres de GPT-5 par la narration guidé
Pour éviter de déclencher les filtres de refus, les chercheurs utilisent la narration comme camouflage. Plutôt que de formuler une demande directe, ils construisent une histoire qui inclut certains mots-clés imposés, comme dans l’exemple : « cocktail », « histoire », « survie », « molotov ». Au fil des réponses, l’IA développe le récit et se rapproche progressivement de la production d’instructions interdites, ici la fabrication d’un cocktail Molotov, tout en restant dans un cadre narratif.
Ce type d’attaque démontre les limites des systèmes de filtrage basés uniquement sur la détection de mots-clés ou d’intentions. Dans un échange multi-tours, le contexte peut être façonné et manipulé de manière à contourner ces barrières. Une approche similaire, nommée Crescendo, a déjà été utilisée pour déjouer les protections de Grok 4 en appliquant une montée en intensité progressive des demandes. Plus la conversation est longue et subtilement orientée, plus les modèles actuels deviennent vulnérables.
Les filtres de GPT-5 ne suffisent pas contre les attaques narratives
Le cas de GPT-5 illustre une vérité que les experts en cybersécurité connaissent depuis des décennies : aucun système, aussi sophistiqué soit-il, n’est imperméable aux manipulations logiques. Comme les attaques d’ingénierie sociale sur les humains, les jailbreaks multi-tours exploitent la confiance et la continuité, amenant l’IA à franchir ses propres limites sans s’en rendre compte.
Avec l’essor des LLM dans des domaines critiques, ces failles cessent d’être de simples curiosités techniques pour devenir de réelles menaces opérationnelles. Les protections actuelles, centrées sur la détection de mots-clés ou d’intentions isolées, ne suffisent plus. La prochaine génération de garde-fous devra analyser l’évolution d’un échange, détecter les dérives narratives et réagir avant que la manipulation ne soit complète.