Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous

GPT-5 n’aura pas tenu longtemps face aux chercheurs en cybersécurité. En combinant une technique de jailbreak appelée Echo Chamber avec un storytelling subtil, ils ont réussi à contourner ses garde-fous et à obtenir des instructions normalement interdites. Dans le même temps, de nouvelles attaques zero-click visent les agents IA reliés au Cloud et à l’IoT, capables de voler des données sensibles sans clic ni interaction humaine.

Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous▲

Qu’est-ce qu’un jailbreak de LLM ?
Le jailbreak de GPT-5 : comment contourner ses garde-fous ?
Les filtres de GPT-5 ne suffisent pas contre les attaques narratives

Qu’est-ce qu’un jailbreak de LLM ?

Un jailbreak de LLM (Large Language Model) désigne l’ensemble des techniques utilisées pour contourner les garde-fous et règles de sécurité intégrées à un modèle d’intelligence artificielle conversationnelle, comme GPT-5. Ces garde-fous sont conçus pour empêcher le modèle de produire des réponses jugées dangereuses, illégales, offensantes ou contraires à la politique de l’éditeur.

Les motivations varient selon les acteurs pour :

Obtenir des informations ou instructions interdites (ex. fabrication d’armes, piratage informatique).
Tester et documenter des failles dans une optique de recherche en cybersécurité (red teaming).
Explorer les limites créatives du modèle pour contourner la censure ou les restrictions thématiques.
Détourner l’IA à des fins malveillantes en l’intégrant à une chaîne d’attaque.

Le jailbreak de GPT-5 : comment contourner ses garde-fous ?

Les chercheurs ont mis au point une méthode efficace pour franchir les barrières de sécurité de GPT-5 en combinant deux approches : l’empoisonnement progressif du contexte conversationnel et la narration guidée.

Echo Chamber : la méthode de jailbreak qui trompe les IA

La technique Echo Chamber documentée pour la première fois en juin 2025 consiste à introduire subtilement dans la conversation des éléments « toxiques » qui vont progressivement influencer les réponses du modèle. Ces éléments sont répétés et reformulés au fil des échanges pour renforcer le contexte empoisonné. L’objectif est de modifier l’orientation du dialogue sans jamais donner l’impression d’une requête explicite ou malveillante.

Contourner les filtres de GPT-5 par la narration guidé

Pour éviter de déclencher les filtres de refus, les chercheurs utilisent la narration comme camouflage. Plutôt que de formuler une demande directe, ils construisent une histoire qui inclut certains mots-clés imposés, comme dans l’exemple : « cocktail », « histoire », « survie », « molotov ». Au fil des réponses, l’IA développe le récit et se rapproche progressivement de la production d’instructions interdites, ici la fabrication d’un cocktail Molotov, tout en restant dans un cadre narratif.

Ce type d’attaque démontre les limites des systèmes de filtrage basés uniquement sur la détection de mots-clés ou d’intentions. Dans un échange multi-tours, le contexte peut être façonné et manipulé de manière à contourner ces barrières. Une approche similaire, nommée Crescendo, a déjà été utilisée pour déjouer les protections de Grok 4 en appliquant une montée en intensité progressive des demandes. Plus la conversation est longue et subtilement orientée, plus les modèles actuels deviennent vulnérables.

Les filtres de GPT-5 ne suffisent pas contre les attaques narratives

Le cas de GPT-5 illustre une vérité que les experts en cybersécurité connaissent depuis des décennies : aucun système, aussi sophistiqué soit-il, n’est imperméable aux manipulations logiques. Comme les attaques d’ingénierie sociale sur les humains, les jailbreaks multi-tours exploitent la confiance et la continuité, amenant l’IA à franchir ses propres limites sans s’en rendre compte.

Avec l’essor des LLM dans des domaines critiques, ces failles cessent d’être de simples curiosités techniques pour devenir de réelles menaces opérationnelles. Les protections actuelles, centrées sur la détection de mots-clés ou d’intentions isolées, ne suffisent plus. La prochaine génération de garde-fous devra analyser l’évolution d’un échange, détecter les dérives narratives et réagir avant que la manipulation ne soit complète.

À propos de l'auteur

Adrien Piron

Je vous aide à dépanner votre ordinateur par vous-même, à découvrir de nouvelles astuces et à en tirer tout le potentiel, pour que la technologie soit un atout et non un obstacle.

Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous

Qu’est-ce qu’un jailbreak de LLM ?

Le jailbreak de GPT-5 : comment contourner ses garde-fous ?

Echo Chamber : la méthode de jailbreak qui trompe les IA

Contourner les filtres de GPT-5 par la narration guidé

Les filtres de GPT-5 ne suffisent pas contre les attaques narratives

À propos de l'auteur

Adrien Piron

Découvrez les articles de la même thématique

Antigravity : le terminal IA de Google qui code à votre place

Utiliser ChatGPT-OSS en local avec les modèles open-weight sur Windows

ChatGPT 5 en panne, comment vérifier l’incident et résoudre les blocages ?

Les meilleurs logiciels d’IA locale et alternative à ChatGPT pour Windows

Le navigateur IA Comet de Perplexity est désormais gratuit pour tout le monde

ChatGPT : Comment activer et utiliser les anciens modèles ChatGPT-4 ?

Microsoft offre désormais un accès gratuit a GPT-5 d’OpenAI avec Copilot sur Windows 11

GPT-OSS 120B : OpenAI revient à l’open source avec un MoE de 120 milliards de paramètres

L’agent ChatGPT surpasse les CAPTCHA et coche « Je ne suis pas un robot »

Replit IA efface une base de données en production et invente 4000 faux utilisateurs

Des chercheurs révèlent comment jailbreaker GPT-5 et contourner ses garde-fous

Qu’est-ce qu’un jailbreak de LLM ?

Le jailbreak de GPT-5 : comment contourner ses garde-fous ?

Echo Chamber : la méthode de jailbreak qui trompe les IA

Contourner les filtres de GPT-5 par la narration guidé

Les filtres de GPT-5 ne suffisent pas contre les attaques narratives

Vous avez trouvé cet article utile ?

À propos de l'auteur

Adrien Piron

Découvrez les articles de la même thématique

Antigravity : le terminal IA de Google qui code à votre place

Utiliser ChatGPT-OSS en local avec les modèles open-weight sur Windows

ChatGPT 5 en panne, comment vérifier l’incident et résoudre les blocages ?

Les meilleurs logiciels d’IA locale et alternative à ChatGPT pour Windows

Le navigateur IA Comet de Perplexity est désormais gratuit pour tout le monde

ChatGPT : Comment activer et utiliser les anciens modèles ChatGPT-4 ?

Microsoft offre désormais un accès gratuit a GPT-5 d’OpenAI avec Copilot sur Windows 11

GPT-OSS 120B : OpenAI revient à l’open source avec un MoE de 120 milliards de paramètres

L’agent ChatGPT surpasse les CAPTCHA et coche « Je ne suis pas un robot »

Replit IA efface une base de données en production et invente 4000 faux utilisateurs