Les résultats des benchmarks de GPT-5.5 ont été publiés dès l’annonce officielle du modèle, jeudi 23 avril 2026. Et les résultats sont sans appel, du moins sur certains tests. Mais avant de crier victoire, il faut lire les tableaux en entier. Derrière le triomphe affiché se cachent quelques surprises désagréables pour OpenAI.

GPT-5.5 établit un record sur les tâches en environnement réel

Commençons par ce qui est réellement impressionnant chez GPT-5.5. Sur Terminal-Bench 2.0, un benchmark qui simule le travail d’un développeur humain dans un terminal réel (exécution de commandes, gestion de fichiers, automatisation de scripts), le modèle atteint 82,7 %. C’est un record. À titre de comparaison, GPT-5.4 obtenait 75,1 %, Claude Opus 4.7 d’Anthropic plafonnait à 69,4 % et Gemini 3.1 Pro de Google à 68,5 %. L’écart est suffisamment important pour ne pas être discuté : sur ce type de tâche concrète, GPT-5.5 prend une longueur d’avance claire.

Ce score n’est pas anodin. Considéré comme l’un des tests les plus représentatifs de l’usage réel par des équipes de développement, Terminal-Bench 2.0 ne se contente pas de vérifier si le modèle génère du code syntaxiquement correct, mais aussi si ce code fonctionne dans un environnement réel. C’est précisément ce que recherchent les développeurs qui automatisent des flux de travail ou travaillent avec des agents IA en production.

Des performances solides mais encore en retrait sur le code avancé

Là, le tableau change. Sur SWE-Bench Pro, un benchmark de référence pour l’ingénierie logicielle qui évalue la capacité d’un modèle à résoudre de vraies issues GitHub en modifiant des bases de code réelles, GPT-5.5 affiche un score de 58,6 %, contre 57,7 % pour GPT-5.4. La progression est réelle, mais elle est modeste. Et surtout, Claude Opus 4.7 d’Anthropic obtient 64,3 % sur ce même test.

- Publicité -

Cet écart de 5,7 points est significatif à ce niveau de difficulté. Concrètement, cela se traduit par une meilleure capacité de Claude à effectuer des refactorisations multi-fichiers complexes, à comprendre des bases de code interconnectées et à produire des modifications qui passent les suites de tests existantes sans intervention humaine. OpenAI met en avant son score interne Expert-SWE, où GPT-5.5 atteint 73,1 % contre 68,5 % pour GPT-5.4, mais ce benchmark n’est pas accessible aux évaluateurs indépendants, ce qui limite sa valeur probante.

📌 Repères clés

🚀 GPT-5.5 atteint 82,7 % sur Terminal-Bench et établit un record
💻 Claude Opus 4.7 reste devant sur SWE-Bench Pro avec 64,3 %
🧠 GPT-5.5 domine les tâches cognitives longues et métiers du savoir
🖥️ Le modèle progresse nettement sur l’autonomie en environnement réel
⚡ Jusqu’à 40 % de gain de temps sur certaines tâches complexes
💸 Une efficacité accrue mais un coût API plus élevé
⚠️ Des doutes persistent sur certains benchmarks internes
❗ Le taux d’hallucination reste une zone d’incertitude majeure

Une autonomie renforcée dans l’utilisation d’outils numériques

GPT-5.5 obtient 78,7 % sur OSWorld-Verified, le benchmark qui mesure l’autonomie d’un modèle à naviguer et à réaliser des tâches sur un ordinateur réel (navigateur Web, tableur, application bureautique). GPT-5.4 était à 75,0 %, ce qui représente une progression significative. Ici, le modèle devance légèrement Claude Opus 4.7, crédité de 78,0 %. C’est un domaine dans lequel GPT-5.5 se distingue clairement, avec des implications pratiques importantes pour les entreprises qui développent des agents capables de piloter des interfaces graphiques.

Une domination confirmée sur les tâches intellectuelles et métiers du savoir

Le benchmark GDPval, conçu pour évaluer les performances des modèles sur des tâches économiquement utiles couvrant 44 métiers du savoir (juristes, analystes financiers, ingénieurs, médecins, etc.), place GPT-5.5 au sommet. Il obtient 84,9 % de victoires ou d’égalités sur ce test, contre 83,0 % pour GPT-5.4 et 80,3 % pour Claude Opus 4.7. Sur le classement Elo de la plateforme Artificial Analysis, GPT-5.5 xhigh atteint 1 782 points, devant GPT-5.5 high (1 758) et Claude Opus 4.7 (1 753).

C’est sur les tâches cognitives longues, comme la rédaction d’un mémo d’analyse, la synthèse d’un dossier juridique ou l’évaluation d’un modèle financier, que GPT-5.5 semble le plus à l’aise. Le gain n’est pas spectaculaire par rapport à GPT-5.4, mais il est constant sur l’ensemble des catégories de métiers testées.

- Publicité -

Suivez toute l’actualité d’Essential Homme sur Google Actualités, sur notre chaîne WhatsApp, ou recevoir directement dans votre boîte mail avec Feeder.

Des progrès mesurés dans les domaines sensibles comme la santé et la sécurité

Sur HealthBench Professional, le benchmark médical d’OpenAI qui évalue la qualité des réponses destinées aux professionnels de santé, GPT-5.5 progresse de 3,7 points par rapport à GPT-5.4, avec un score de 51,8. HealthBench Hard, la version la plus difficile du test, passe de 62,6 % (GPT-5.4) à des résultats légèrement supérieurs pour GPT-5.5, selon la fiche technique publiée par OpenAI. En cybersécurité, la carte de sécurité officielle confirme que GPT-5.5 surpasse les modèles GPT précédents sur un ensemble de défis CTF (Capture the Flag) et sur un benchmark de découverte de vulnérabilités.

Une efficacité accrue qui transforme le coût réel des tâches

Sur le plan de l’efficacité opérationnelle, GPT-5.5 accomplit les tâches Codex en utilisant moins de tokens que GPT-5.4. Concrètement, cela signifie moins d’allers-retours inutiles, moins de vérifications redondantes et des sorties plus directes. La latence par token reste identique : le modèle ne génère pas plus vite, il génère moins tout en produisant un meilleur résultat. Sur les tâches de programmation complexes, il peut être jusqu’à 40 % plus rapide que son prédécesseur en termes de temps total d’exécution.

- Publicité -

En revanche, ce gain d’efficacité a un prix. Le coût d’utilisation via API est en effet plus élevé que celui de GPT-5.4. Pour les entreprises gérant d’importants volumes de requêtes automatisées, le calcul doit donc prendre en compte ces deux dimensions : les tokens économisés, mais facturés plus cher.

Un score global élevé mais à interpréter avec prudence

Sur l’Artificial Analysis Intelligence Index, qui agrège plusieurs évaluations standard pour produire une note globale de capacité, GPT-5.5 obtient un score de 60. La moyenne des modèles comparables est de 33. Cet indice est utile pour avoir une vue d’ensemble, mais il faut le lire avec prudence, car il pondère différemment les dimensions techniques et les capacités conversationnelles, ce qui peut favoriser ou défavoriser certains modèles en fonction de leur utilisation.

Les limites des benchmarks face aux usages réels

La question du taux d’hallucination mérite d’être soulevée. Des analyses indépendantes mentionnent que GPT-5.5 afficherait un taux d’hallucination de 86 % sur certains tests spécifiques, contre 36 % pour Claude Opus 4.7. OpenAI n’a pas directement commenté ce chiffre et la méthodologie de ce test précis reste à vérifier. Mais le sujet ne disparaîtra pas.

Plus largement, une partie des benchmarks présentés par OpenAI est auto-déclarée. SWE-Bench Pro est public et reproductible, ce qui le rend crédible. Expert-SWE et certains tests internes ne le sont pas. Les développeurs qui testent GPT-5.5 en production rapportent des gains nets sur les workflows agents longs et sur l’enchaînement d’outils, ce qui corrobore les résultats de Terminal-Bench et d’OSWorld. En revanche, pour le raisonnement pur et les tâches de code complexe multi-fichiers, Claude Opus 4.7 garde encore une longueur d’avance mesurable.

- Publicité -

Tableau récapitulatif des benchmarks

Benchmarks GPT-5.5 — Comparatif des modèles IA

Sources : OpenAI & évaluateurs tiers · Lancement du 23 avril 2026

Benchmark	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0 Codage Tâches réelles en terminal	82,7 %	75,1 %	69,4 %	68,5 %
SWE-Bench Pro Codage Ingénierie logicielle (issues GitHub)	58,6 %	57,7 %	64,3 %	54,2 %
Expert-SWE (interne OpenAI) Codage Délais serrés · non reproductible	73,1 %	68,5 %	—	—
OSWorld-Verified Global Autonomie sur ordinateur réel	78,7 %	75,0 %	78,0 %	—
GDPval (victoires/égalités) Spécialisé Tâches économiques · 44 métiers	84,9 %	83,0 %	80,3 %	67,3 %
HealthBench Professional Spécialisé Applications médicales pro	51,8	48,1	—	—
AA Intelligence Index Global Indice agrégé · Artificial Analysis	60 / 100	—	—	Moy. : 33

Meilleur score

Score intermédiaire

Score inférieur

Non disponib

Les benchmarks de GPT-5.5 révèlent un duel au sommet avec Claude Opus 4.7 pour le titre de meilleur modèle

Sur fond de rivalité avec Claude Opus 4.7, GPT-5.5 confirme sa puissance mais interroge encore sur sa capacité à gérer les cas les plus complexes.

GPT-5.5 établit un record sur les tâches en environnement réel

Des performances solides mais encore en retrait sur le code avancé

Une autonomie renforcée dans l’utilisation d’outils numériques

Une domination confirmée sur les tâches intellectuelles et métiers du savoir

Des progrès mesurés dans les domaines sensibles comme la santé et la sécurité

Une efficacité accrue qui transforme le coût réel des tâches

Un score global élevé mais à interpréter avec prudence

Les limites des benchmarks face aux usages réels

Tableau récapitulatif des benchmarks

Essential Homme

Notre réseau

GPT-5.5 établit un record sur les tâches en environnement réel

Des performances solides mais encore en retrait sur le code avancé

Une autonomie renforcée dans l’utilisation d’outils numériques

Une domination confirmée sur les tâches intellectuelles et métiers du savoir

Ces articles peuvent également vous intéresser

Des progrès mesurés dans les domaines sensibles comme la santé et la sécurité

Une efficacité accrue qui transforme le coût réel des tâches

Un score global élevé mais à interpréter avec prudence

Les limites des benchmarks face aux usages réels

Tableau récapitulatif des benchmarks