Une faille de sécurité critique référencée CVE‑2025‑23266 vient d’être découverte dans le NVIDIA Container Toolkit, un composant largement utilisé pour déployer des charges de travail IA sur GPU dans des environnements cloud. Cette vulnérabilité permet à un conteneur malveillant d’échapper à son isolement pour exécuter du code avec les droits root sur l’hôte et compromets potentiellement l’ensemble de l’infrastructure. Un hook mal sécurisé activé par défaut dans les versions concernées. Voici tout ce que vous devez savoir pour comprendre les risques et appliquer les correctifs au plus vite.
CVE‑2025‑23266 : Techniques de la faille critique dans le NVIDIA Container Toolkit
La faille CVE‑2025‑23266, surnommée NVIDIAScape, permet une escalade de privilèges depuis un conteneur GPU exécuté avec le NVIDIA Container Toolkit. En exploitant une configuration incorrecte du hook cuda-compat
(activé par défaut), un attaquant peut injecter une bibliothèque malveillante via LD_PRELOAD
, détourner l’environnement d’exécution, et obtenir un accès root à la machine hôte.
Composants affectés :
- NVIDIA Container Toolkit jusqu’à la version 1.17.7 incluse
- NVIDIA GPU Operator jusqu’à la version 25.3.0 incluse
Ces composants sont largement utilisés pour orchestrer l’accès aux GPU dans les environnements Docker et Kubernetes dans les clusters d’IA mutualisés (cloud public, plateformes d’entraînement, notebooks partagés…).
Le problème provient de la gestion d’un hook OCI chargé dynamiquement pour assurer la compatibilité CUDA dans les conteneurs. Ce hook, mal implémenté, ne vérifie pas correctement l’intégrité des chemins exécutés et permet le chargement arbitraire de bibliothèques partagées, notamment via la variable d’environnement LD_PRELOAD
. Résultat : une simple image Docker peut injecter du code malveillant qui s’exécute avec des privilèges élevés sur l’hôte.
CVE‑2025‑23266 : 37 % des services cloud IA exposés à une faille critique
La faille CVE‑2025‑23266 affecte directement les environnements cloud utilisant des GPU NVIDIA pour exécuter des charges de travail conteneurisées. Selon plusieurs estimations industrielles, environ 37 % des services IA en cloud reposent sur des configurations vulnérables, incluant le NVIDIA Container Toolkit et le GPU Operator dans des versions non corrigées.
Le risque est particulièrement élevé dans les environnements mutualisés, où plusieurs clients ou applications partagent les mêmes ressources matérielles (multi‑tenancy). Dans ces contextes, un simple conteneur IA compromis peut permettre à un acteur malveillant de s’échapper de son bac à sable et d’interagir avec d’autres charges de travail exécutées sur le même nœud avec des conséquences potentiellement critiques (vol de données, altération de modèles, sabotage d’entraînements…).
Parmi les cas d’usage les plus exposés figurent :
- Les plateformes d’entraînement IA partagées (notebooks cloud, environnements Jupyter multi‑utilisateurs)
- Les services de type API as a Service exploitant des GPU via conteneurs (ex. : génération d’images, transcription vocale, LLM auto-hébergés)
- Les clusters Kubernetes mutualisés, couramment déployés dans les start-ups, universités ou incubateurs IA
Dans tous ces scénarios, la promiscuité des utilisateurs et le manque d’isolation renforcée rendent l’exploitation de la faille particulièrement dangereuse.
Faille CVE‑2025‑23266 : les mises à jour NVIDIA à appliquer d’urgence
Face à la criticité de la faille CVE‑2025‑23266, il est impératif d’agir rapidement pour sécuriser les environnements vulnérables. NVIDIA a publié des correctifs officiels corrigeant la gestion défectueuse du hook cuda-compat
dans ses outils d’orchestration GPU :
Mises à jour recommandées :
- NVIDIA Container Toolkit : mettre à jour en version 1.17.8 ou supérieure
- NVIDIA GPU Operator : passer en version 25.3.1 ou supérieure
Ces versions corrigent l’implémentation du hook OCI en renforçant les contrôles d’accès et en neutralisant la possibilité d’injection via LD_PRELOAD
.