Skip to content
Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous
Cybersécurité Par Adrien

Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous

GPT-5 n’aura pas tenu longtemps face aux chercheurs en cybersécurité. En combinant une technique de jailbreak appelée Echo Chamber avec un storytelling subtil, ils ont réussi à contourner ses garde-fous et à obtenir des instructions normalement interdites. Dans le même temps, de nouvelles attaques zero-click visent les agents IA reliés au Cloud et à l’IoT, capables de voler des données sensibles sans clic ni interaction humaine.

Qu’est-ce qu’un jailbreak de LLM ?

Un jailbreak de LLM (Large Language Model) désigne l’ensemble des techniques utilisées pour contourner les garde-fous et règles de sécurité intégrées à un modèle d’intelligence artificielle conversationnelle, comme GPT-5. Ces garde-fous sont conçus pour empêcher le modèle de produire des réponses jugées dangereuses, illégales, offensantes ou contraires à la politique de l’éditeur.

Les motivations varient selon les acteurs pour :

  • Obtenir des informations ou instructions interdites (ex. fabrication d’armes, piratage informatique).
  • Tester et documenter des failles dans une optique de recherche en cybersécurité (red teaming).
  • Explorer les limites créatives du modèle pour contourner la censure ou les restrictions thématiques.
  • Détourner l’IA à des fins malveillantes en l’intégrant à une chaîne d’attaque.

Le jailbreak de GPT-5 : comment contourner ses garde-fous ?

Les chercheurs ont mis au point une méthode efficace pour franchir les barrières de sécurité de GPT-5 en combinant deux approches : l’empoisonnement progressif du contexte conversationnel et la narration guidée.

Echo Chamber : la méthode de jailbreak qui trompe les IA

La technique Echo Chamber documentée pour la première fois en juin 2025 consiste à introduire subtilement dans la conversation des éléments « toxiques » qui vont progressivement influencer les réponses du modèle. Ces éléments sont répétés et reformulés au fil des échanges pour renforcer le contexte empoisonné. L’objectif est de modifier l’orientation du dialogue sans jamais donner l’impression d’une requête explicite ou malveillante.

Contourner les filtres de GPT-5 par la narration guidé

Pour éviter de déclencher les filtres de refus, les chercheurs utilisent la narration comme camouflage. Plutôt que de formuler une demande directe, ils construisent une histoire qui inclut certains mots-clés imposés, comme dans l’exemple : « cocktail », « histoire », « survie », « molotov ». Au fil des réponses, l’IA développe le récit et se rapproche progressivement de la production d’instructions interdites, ici la fabrication d’un cocktail Molotov, tout en restant dans un cadre narratif.

Ce type d’attaque démontre les limites des systèmes de filtrage basés uniquement sur la détection de mots-clés ou d’intentions. Dans un échange, le contexte peut être façonné et manipulé de manière à contourner ces barrières. Une approche similaire a déjà été utilisée pour déjouer les protections de Grok 4 en appliquant une montée en intensité progressive des demandes. Plus la conversation est longue et subtilement orientée, plus les modèles actuels deviennent vulnérables.

Les filtres de GPT-5 ne suffisent pas contre les attaques narratives

Le cas de GPT-5 illustre une vérité que les experts en cybersécurité connaissent depuis des décennies : aucun système, aussi sophistiqué soit-il, n’est imperméable aux manipulations logiques. Comme les attaques d’ingénierie sociale sur les humains, les jailbreaks exploitent la confiance et la continuité pour amener l’IA à franchir ses propres limites sans s’en rendre compte.

Avec l’essor des LLM dans des domaines critiques, ces failles cessent d’être de simples curiosités techniques pour devenir de réelles menaces opérationnelles. Les protections actuelles sur la détection de mots-clés ou d’intentions isolées, ne suffisent plus. La prochaine génération de garde-fous devra analyser l’évolution d’un échange, détecter les dérives narratives et réagir avant que la manipulation ne soit complète.

Les autres lecteurs ont aussi consulté :

Ads Blocker Detected

Un bloqueur de publicités a été détecté

Pour accéder à tout notre contenu, veuillez désactiver votre bloqueur. On sait, les publicités peuvent être agaçantes. Mais ici, elles nous permettent de payer les serveurs et de rémunérer les experts qui écrivent nos articles.