Fermer dans 10s
Microsoft Copilot parmi les pires modèles linguistiques selon un test de QI

Microsoft Copilot parmi les pires modèles linguistiques selon un test de QI

L’intelligence artificielle impressionne, mais toutes ne se valent pas. Dans un test de QI comparatif récemment publié, plusieurs modèles linguistiques ont été évalués pour mesurer leur capacité à raisonner logiquement, comprendre des analogies ou résoudre des problèmes abstraits. Surprise : Microsoft Copilot arrive parmi les derniers du classement. Une performance décevante qui questionne la réelle maturité de l’outil… malgré sa forte intégration dans l’écosystème Windows.

Microsoft Copilot parmi les pires modèles linguistiques selon un test de QI

Benchmark QI des IA : un test sans Internet basé sur le raisonnement

Pour évaluer les véritables capacités cognitives des modèles linguistiques, les chercheurs à l’origine du test ont volontairement écarté toute question basée sur des faits indexables ou des données mémorisées. Exit les connaissances encyclopédiques ou les réponses issues du web : ce benchmark s’appuie uniquement sur des questions de raisonnement logique, conçues pour mesurer la capacité d’une IA à déduire, anticiper ou compléter un raisonnement abstrait.

Le format est directement inspiré des tests d’admission de type Mensa ou SAT, avec des suites logiques, des analogies, des puzzles verbaux ou mathématiques, mais sans aucun recours possible à l’Internet ou à des bases de données préentraînées. L’objectif : ne pas juger ce que l’IA sait, mais ce qu’elle comprend et infière en temps réel.

Une grille de notation entre 55 et 145

Le score attribué à chaque modèle suit une échelle de quotient intellectuel calquée sur celle des humains, comprise entre 55 (faible) et 145 (hautement supérieur). Un score de 100 correspond au niveau moyen attendu chez un adulte humain.

Chaque IA a été testée en conditions identiques, sans assistance contextuelle ni accès externe à Internet. Cela permet d’obtenir une base de comparaison fiable entre les différents modèles, qu’il s’agisse d’IA grand public comme ChatGPT, de modèles open source comme Mistral, ou de solutions intégrées comme Microsoft Copilot.

Ce protocole strict met en lumière des différences profondes entre les architectures d’IA, en particulier sur leur capacité à simuler un raisonnement logique autonome, sans support ni contexte externe.

Résultats du test : Copilot en queue de peloton

Le verdict est sans appel : Microsoft Copilot se classe 25e sur 26 modèles d’intelligence artificielle testés. En mode autonome (hors ligne), il n’a obtenu qu’un score de 67, ce qui correspond à un niveau nettement inférieur à la moyenne humaine. Même lors du test Mensa norvégien, son score plafonne à 84, loin derrière les ténors du classement.

Copilot en queue de peloton trackingai.org
Copilot termine 25ème sur 26 ©trackingai.org

À titre de comparaison :

  • Grok-4 (xAI/Elon Musk) atteint 136,
  • Claude 3 Opus (Anthropic) culmine à 131,
  • OpenAI o3 Pro (alias GPT-4o) se positionne à 117.

Ce classement est d’autant plus surprenant que Copilot repose partiellement sur les modèles d’OpenAI GPT-4 dans certains cas. Comment expliquer une performance aussi faible alors qu’il est censé bénéficier des meilleurs moteurs disponibles ?

Plusieurs hypothèses émergent :

  • En mode hors ligne ou entreprise, Copilot ne semble pas exploiter GPT-4 intégralement, mais plutôt une version allégée ou bridée.
  • Son intégration à Microsoft 365 priorise les tâches bureautiques et les réponses pratiques, au détriment du raisonnement abstrait ou logique.
  • Certaines limitations techniques (filtrage, latence, priorité à la sécurité) peuvent altérer ses performances brutes sur ce type de test.

La contre-performance ne signifie pas que Copilot est inutile mais elle souligne qu’en dehors des scénarios Microsoft, l’outil a peu de marge face aux leaders de l’intelligence générale.

À propos de l'auteur

Adrien Piron

Je vous aide à dépanner votre ordinateur par vous-même, à découvrir de nouvelles astuces et à en tirer tout le potentiel, pour que la technologie soit un atout et non un obstacle.

Découvrez les articles de la même thématique

Antigravity : le terminal IA de Google qui code à votre place

Antigravity : le terminal IA de Google qui code à votre place

Découvrez Antigravity, le terminal IA de Google qui analyse un projet, modifie les fichiers, lance les commandes et automatise la création de code.

Utiliser ChatGPT-OSS en local avec les modèles open-weight sur Windows

Utiliser ChatGPT-OSS en local avec les modèles open-weight sur Windows

Découvrez comment utiliser ChatGPT-OSS en local grâce aux modèles open-weight d’OpenAI. Installation, configuration Windows, Ollama et performance matérielle.

ChatGPT 5 en panne, comment vérifier l’incident et résoudre les blocages ?

ChatGPT 5 en panne, comment vérifier l’incident et résoudre les blocages ?

ChatGPT-5 ne répond plus ? Suivez notre guide pour diagnostiquer une éventuelle panne, distinguer un bug local d’un incident OpenAI et retrouver rapidement un fonctionnement normal.

Les meilleurs logiciels d’IA locale et alternative à ChatGPT pour Windows

Les meilleurs logiciels d’IA locale et alternative à ChatGPT pour Windows

L’intelligence artificielle s’émancipe peu à peu du cloud pour s’installer directement sur nos ordinateurs. Grâce à de nouveaux logiciels conçus […]