Ajoutez E.H à vos sources préférées Suivez-nous sur Google Actualités

Six semaines. Il aura fallu six semaines à Anthropic pour corriger les défauts de son modèle phare et lancer Claude Opus 4.8 sur le marché. Une cadence qui surprend et un signal fort envoyé à la concurrence.

Le 28 mai 2026, l’entreprise a mis en ligne Claude Opus 4.8, son modèle d’intelligence artificielle le plus avancé, à la disposition du grand public. Ce lancement survient seulement 41 jours après la sortie d’Opus 4.7, le 16 avril. Pour une entreprise habituellement plus mesurée dans son calendrier de publication, ce rythme soutenu mérite qu’on s’y attarde.

Claude Opus 4.8 efface les critiques adressées à Opus 4.7

Opus 4.7 n’avait pas convaincu tout le monde. Des développeurs et des testeurs avaient rapidement pointé du doigt des problèmes concrets : le modèle avait tendance à être trop bavard, à rater des appels d’outils au mauvais moment et à affirmer des choses sans les étayer sérieusement. Scott Wu, le PDG de Devin, l’a formulé sans détour dans le communiqué officiel d’Anthropic : « Il corrige les problèmes de verbosité des commentaires et d’appels d’outils que nous avions constatés avec Opus 4.7. »

Anthropic a donc réagi. Et vite. Ce qui aurait pu ressembler à un simple correctif se présente aujourd’hui comme une mise à jour substantielle, avec des avancées mesurables sur plusieurs dimensions.

- Publicité -

Performances comparées des modèles d’IA

Benchmark	Opus 4.8 ★ Meilleur	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
Codage agentique SWE-Bench Pro	69,2 %	64,3 %	58,6 %	54,2 %
Codage terminal agentique Terminal-Bench 2.1	74,6 %	66,1 %	78,2 %	70,3 %
Raisonnement multidisciplinaire Humanity’s Last Exam	49,8 %sans outils 57,9 %avec outils	46,9 %sans outils 54,7 %avec outils	41,4 %sans outils 52,2 %avec outils	44,4 %sans outils 51,4 %avec outils
Utilisation autonome d’un PC OSWorld-Verified	83,4 %	82,8 %	78,7 %	76,2 %
Travail de connaissance GDPval-AA	1 890	1 753	1 769	1 314
Analyse financière agentique Finance Agent v2	53,9 %	51,5 %	51,8 %	43,0 %

Meilleur score (Opus 4.8)

Meilleur score (autre modèle)

Passez la souris sur une cellule pour les détails

Source : Anthropic — Claude Opus 4.8 System Card, mai 2026

La fiabilité devient le nouvel avantage compétitif d’Anthropic

Le terme qui revient le plus souvent dans la communication d’Anthropic autour d’Opus 4.8, c’est « honnêteté ». Ce n’est pas un terme qu’on attend d’ordinaire dans la fiche technique d’un modèle d’IA. Pourtant, l’entreprise en a fait un argument de poids.

Concrètement, Opus 4.8 serait environ quatre fois moins susceptible qu’Opus 4.7 de laisser passer des bugs dans le code qu’il génère sans les signaler. Le modèle exprime également davantage ses incertitudes plutôt que de foncer tête baissée. Selon le communiqué officiel d’Anthropic, l’équipe d’alignement a conclu qu’Opus 4.8 « atteint de nouveaux sommets sur nos mesures de traits prosociaux, comme le soutien à l’autonomie de l’utilisateur et la prise en compte de ses intérêts ».

C’est un repositionnement subtil, mais réel : là où d’autres laboratoires misent sur la puissance brute, Anthropic insiste sur la fiabilité comportementale. Pour un modèle destiné à travailler de manière autonome sur des tâches longues et critiques, ce n’est pas anecdotique.

Suivez toute l’actualité d’Essential Homme sur Google Actualités, sur notre chaîne WhatsApp, ou recevoir directement dans votre boîte mail avec Feeder.

- Publicité -

Claude Opus 4.8 s’impose dans les évaluations les plus exigeantes

Sur le terrain des performances mesurables, Opus 4.8 progresse sur plusieurs fronts. Il est le seul modèle à avoir complété tous les cas du benchmark interne Super-Agent d’Anthropic de bout en bout, devançant les versions précédentes d’Opus et GPT-5.5, et ce, à parité de coût.

Sur Online-Mind2Web, un test d’utilisation autonome du navigateur web, il atteint 84 % — le meilleur score parmi tous les modèles testés par Anthropic. Sur le benchmark juridique de Thomson Reuters, CoCounsel, il enregistre le score le plus élevé jamais obtenu par un modèle Claude et devient le premier modèle à dépasser 10 % au classement général.

Les chiffres publiés par Vellum AI confirment également l’avance d’Opus 4.8 en matière de raisonnement multidisciplinaire : il atteint 69,2 % sur le test maison de Vellum AI, contre 64,3 % pour Opus 4.7, et bien au-delà de GPT-5.5 (58,6 %) ou Gemini 3.1 Pro (54,2 %).

- Publicité -

Les Dynamic Workflows ouvrent l’ère des agents à grande échelle

Au-delà du modèle lui-même, Anthropic lance en parallèle une fonctionnalité inédite : les Dynamic Workflows dans Claude Code. Le principe est simple à comprendre, mais redoutablement efficace en pratique. Le modèle peut désormais planifier une tâche complexe, lancer des centaines de sous-agents en parallèle, surveiller leur avancement et vérifier les résultats avant de rendre la main à l’utilisateur.

L’architecture repose sur une hiérarchie « manager-worker » : un agent principal décompose la tâche, instancie des agents spécialisés pour chaque sous-objectif, puis synthétise les résultats. Concrètement, Claude Code avec Opus 4.8 peut désormais piloter des migrations de code sur des centaines de milliers de lignes, de A à Z, en s’appuyant sur la suite de tests existante comme seul garde-fou.

Cette fonctionnalité est disponible en préversion pour les plans Enterprise, Team et Max. Pour les équipes qui gèrent des bases de code importantes, il s’agit du changement le plus significatif de cette mise à jour.

Comportements mal alignés

Visualisation responsive du score moyen observé sur une échelle de 1 à 10. Passez la souris sur une barre pour afficher la valeur exacte et sa marge d’erreur.

Opus 4.8 affiche le score le plus bas

Sonnet 4.6 — 2,58 ± 0,06

Sonnet 4.6

Mythos Preview — 1,78 ± 0,04

Mythos Preview

Opus 4.7 — 2,48 ± 0,05

Opus 4.7

Opus 4.8 — 1,83 ± 0,035

Opus 4.8

Lecture rapide : plus le score est bas, moins le modèle présente de comportements mal alignés.

Anthropic donne davantage de contrôle sur la puissance de calcul

Autre nouveauté notable : un curseur d’intensité de réflexion est désormais accessible directement sur claude.ai. Les abonnés peuvent choisir entre un mode rapide (réponses plus courtes, moins de tokens consommés, nommé « Low ») et un mode maximal (« Max ») pour les problèmes complexes.

- Publicité -

Sur le plan financier, le mode rapide d’Opus 4.8 représente une avancée significative : il est 2,5 fois plus rapide et trois fois moins cher que sur les modèles précédents. Le tarif standard reste quant à lui inchangé : 5 dollars par million de tokens en entrée et 25 dollars en sortie. Une stabilité tarifaire qui tranche avec les hausses de prix régulièrement observées chez certains concurrents.

Mythos se rapproche d’un lancement au-delà de la cybersécurité

Le lancement d’Opus 4.8 ne serait pourtant qu’un prologue. Anthropic annonce en effet qu’elle prépare l’ouverture au grand public de Claude Mythos, son modèle le plus puissant, un cran au-dessus de la gamme Opus, jusqu’ici réservé à un cercle très restreint d’organisations.

Présenté le 7 avril 2026 dans le cadre du projet Glasswing, Mythos Preview n’était accessible qu’à une quarantaine d’entreprises, dont Apple, Amazon et Microsoft, pour des travaux de cybersécurité défensive. Le modèle était notamment utilisé pour détecter des vulnérabilités dans des logiciels critiques et des projets open source.

Anthropic avait alors clairement signifié qu’elle n’avait pas l’intention de le rendre public. Cette position a changé. La société affirme désormais progresser rapidement dans le développement des garde-fous nécessaires à un déploiement à grande échelle et promet une disponibilité étendue « dans les semaines à venir ». Si les benchmarks d’Opus 4.8 impressionnent déjà, Mythos appartient, selon Anthropic elle-même, à une catégorie différente.

- Publicité -

Anthropic adopte un rythme inédit face à OpenAI et Google

Derrière cette accélération se lit clairement la pression concurrentielle. Depuis plusieurs mois, OpenAI, Google DeepMind et Meta publient des modèles à un rythme soutenu. Anthropic, qui était jusqu’à présent plus prudente sur la cadence de ses sorties, semble avoir ajusté sa stratégie : corriger rapidement, publier fréquemment et maintenir le cap sur la sécurité comme facteur de différenciation.

La promesse d’une sortie de Mythos pour le grand public confirme ce changement de rythme. Reste à savoir si les garde-fous annoncés seront au rendez-vous et si l’entreprise tiendra son calendrier dans un secteur où les semaines peuvent parfois ressembler à des années.

Anthropic accélère le rythme avec Claude Opus 4.8 et prépare l’arrivée de Mythos

Dans la course à l'intelligence artificielle, Anthropic change de rythme. Derrière Claude Opus 4.8 se dessine une stratégie bien plus ambitieuse.

Claude Opus 4.8 efface les critiques adressées à Opus 4.7

La fiabilité devient le nouvel avantage compétitif d’Anthropic

Claude Opus 4.8 s’impose dans les évaluations les plus exigeantes

Les Dynamic Workflows ouvrent l’ère des agents à grande échelle

Comportements mal alignés

Anthropic donne davantage de contrôle sur la puissance de calcul

Mythos se rapproche d’un lancement au-delà de la cybersécurité

Anthropic adopte un rythme inédit face à OpenAI et Google

Essential Homme

Notre réseau

Claude Opus 4.8 efface les critiques adressées à Opus 4.7

La fiabilité devient le nouvel avantage compétitif d’Anthropic

Ces articles peuvent également vous intéresser

Claude Opus 4.8 s’impose dans les évaluations les plus exigeantes

Les Dynamic Workflows ouvrent l’ère des agents à grande échelle

Comportements mal alignés

Anthropic donne davantage de contrôle sur la puissance de calcul

Mythos se rapproche d’un lancement au-delà de la cybersécurité

Anthropic adopte un rythme inédit face à OpenAI et Google