Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous

Des chercheurs ont découvert une méthode pour jailbreaker GPT-5 en contournant ses filtres de sécurité grâce à la technique Echo Chamber et à la narration guidée.

21 décembre 2025 3 min Adrien

GPT-5 n’aura pas tenu longtemps face aux chercheurs en cybersécurité. En combinant une technique de jailbreak appelée Echo Chamber avec un storytelling subtil, ils ont réussi à contourner ses garde-fous et à obtenir des instructions normalement interdites. Dans le même temps, de nouvelles attaques zero-click visent les agents IA reliés au Cloud et à l’IoT, capables de voler des données sensibles sans clic ni interaction humaine.

Au programme de cet article

Qu’est-ce qu’un jailbreak de LLM ?
Le jailbreak de GPT-5 : comment contourner ses garde-fous ?
Echo Chamber : la méthode de jailbreak qui trompe les IA
Contourner les filtres de GPT-5 par la narration guidé
Les filtres de GPT-5 ne suffisent pas contre les attaques narratives

Qu’est-ce qu’un jailbreak de LLM ?

Un jailbreak de LLM (Large Language Model) désigne l’ensemble des techniques utilisées pour contourner les garde-fous et règles de sécurité intégrées à un modèle d’intelligence artificielle conversationnelle, comme GPT-5. Ces garde-fous sont conçus pour empêcher le modèle de produire des réponses jugées dangereuses, illégales, offensantes ou contraires à la politique de l’éditeur.

Les motivations varient selon les acteurs pour :

Obtenir des informations ou instructions interdites (ex. fabrication d’armes, piratage informatique).
Tester et documenter des failles dans une optique de recherche en cybersécurité (red teaming).
Explorer les limites créatives du modèle pour contourner la censure ou les restrictions thématiques.
Détourner l’IA à des fins malveillantes en l’intégrant à une chaîne d’attaque.

Le jailbreak de GPT-5 : comment contourner ses garde-fous ?

Les chercheurs ont mis au point une méthode efficace pour franchir les barrières de sécurité de GPT-5 en combinant deux approches : l’empoisonnement progressif du contexte conversationnel et la narration guidée.

Echo Chamber : la méthode de jailbreak qui trompe les IA

La technique Echo Chamber documentée pour la première fois en juin 2025 consiste à introduire subtilement dans la conversation des éléments « toxiques » qui vont progressivement influencer les réponses du modèle. Ces éléments sont répétés et reformulés au fil des échanges pour renforcer le contexte empoisonné. L’objectif est de modifier l’orientation du dialogue sans jamais donner l’impression d’une requête explicite ou malveillante.

Contourner les filtres de GPT-5 par la narration guidé

Pour éviter de déclencher les filtres de refus, les chercheurs utilisent la narration comme camouflage. Plutôt que de formuler une demande directe, ils construisent une histoire qui inclut certains mots-clés imposés, comme dans l’exemple : « cocktail », « histoire », « survie », « molotov ». Au fil des réponses, l’IA développe le récit et se rapproche progressivement de la production d’instructions interdites, ici la fabrication d’un cocktail Molotov, tout en restant dans un cadre narratif.

Ce type d’attaque démontre les limites des systèmes de filtrage basés uniquement sur la détection de mots-clés ou d’intentions. Dans un échange, le contexte peut être façonné et manipulé de manière à contourner ces barrières. Une approche similaire a déjà été utilisée pour déjouer les protections de Grok 4 en appliquant une montée en intensité progressive des demandes. Plus la conversation est longue et subtilement orientée, plus les modèles actuels deviennent vulnérables.

Source préférée Google Ne subissez pas l’algorithme

Ajoutez Assistouest à vos sources préférées sur Google pour retrouver nos guides plus vite quand vous cherchez une solution informatique.

Mettre en favori

Les filtres de GPT-5 ne suffisent pas contre les attaques narratives

Le cas de GPT-5 illustre une vérité que les experts en cybersécurité connaissent depuis des décennies : aucun système, aussi sophistiqué soit-il, n’est imperméable aux manipulations logiques. Comme les attaques d’ingénierie sociale sur les humains, les jailbreaks exploitent la confiance et la continuité pour amener l’IA à franchir ses propres limites sans s’en rendre compte.

Avec l’essor des LLM dans des domaines critiques, ces failles cessent d’être de simples curiosités techniques pour devenir de réelles menaces opérationnelles. Les protections actuelles sur la détection de mots-clés ou d’intentions isolées, ne suffisent plus. La prochaine génération de garde-fous devra analyser l’évolution d’un échange, détecter les dérives narratives et réagir avant que la manipulation ne soit complète.

Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous

Au programme de cet article

Qu’est-ce qu’un jailbreak de LLM ?

Le jailbreak de GPT-5 : comment contourner ses garde-fous ?

Echo Chamber : la méthode de jailbreak qui trompe les IA

Contourner les filtres de GPT-5 par la narration guidé

Les filtres de GPT-5 ne suffisent pas contre les attaques narratives

Votre PC rame ou bugue ?

Un problème de disque dur ?

Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous

Au programme de cet article

Qu’est-ce qu’un jailbreak de LLM ?

Le jailbreak de GPT-5 : comment contourner ses garde-fous ?

Echo Chamber : la méthode de jailbreak qui trompe les IA

Contourner les filtres de GPT-5 par la narration guidé

Les filtres de GPT-5 ne suffisent pas contre les attaques narratives

Votre PC rame ou bugue ?

Un problème de disque dur ?

Nos derniers tutoriels & actualités

Comment fonctionne le dépannage informatique à distance et garantir votre sécurité ?

J’ai testé Salfeld Child, le logiciel de contrôle parental pour Windows

Hardening PC : les techniques des postes haute sécurité appliquées à votre ordinateur

Meilleur antivirus gratuit 2026, comparatif pour PC Windows

Windows Defender est-il suffisant en 2026 ? Avis Microsoft Defender