Claude Sonnet 5 & Claude Science : benchmarks 2026

Technique

Par Victor

1er juillet 2026

12 min de lecture

Le 30 juin 2026, Anthropic a publié deux annonces le même jour : un modèle qui referme l'écart avec son propre haut de gamme à prix cassé, et un produit qui n'a plus rien d'un chatbot généraliste. Prises séparément, ce sont deux mises à jour de plus dans un marché saturé d'annonces IA. Prises ensemble, elles disent quelque chose de précis sur la direction que prend le secteur — et ça concerne directement les PME et ETI qui automatisent avec l'IA.

Cet article fait le tour des chiffres, sourcés depuis les pages officielles d'Anthropic et un comparatif tiers indépendant, sans survendre ni minimiser. Et on vous dit honnêtement ce qui, dans tout ça, vous concerne vraiment.

L'essentiel en 30 secondes

• Claude Sonnet 5 (30/06/2026) : le Sonnet le plus agentique jamais publié par Anthropic. Sur le codage agentique (SWE-bench Pro), il passe de 58,1 % (Sonnet 4.6) à 63,2 %, à comparer aux 69,2 % d'Opus 4.8. Sur le travail de connaissance (GDPval-AA v2), il dépasse même Opus 4.8 (1 618 vs 1 615).
• Le prix baisse : 2 $ / 10 $ par million de tokens (entrée/sortie) en tarif de lancement jusqu'au 31 août 2026, contre 3 $ / 15 $ pour Sonnet 4.6 et 5 $ / 25 $ pour Opus 4.8.
• Claude Science (30/06/2026, bêta) : un environnement de travail dédié à la recherche scientifique — génomique, biologie structurale, protéomique — avec agents spécialisés et vérification automatique des citations. Ce n'est pas un outil pour l'automatisation d'entreprise généraliste.
• Le fil conducteur : le même jour, Anthropic sort un moteur d'exécution agentique moins cher ET un produit vertical bâti sur des connecteurs métier spécifiques. C'est exactement la logique qu'on applique nous-mêmes en automatisation : pas de chatbot générique, des agents branchés sur vos outils réels.

Deux annonces, un même jour, une direction claire

On a pris l'habitude, depuis deux ans, de voir chaque laboratoire d'IA publier un nouveau modèle « plus intelligent » tous les quelques mois. Ce qui distingue la sortie du 30 juin 2026, ce n'est pas qu'Anthropic ait amélioré Sonnet — c'est qu'elle l'ait fait en même temps qu'elle lançait un produit radicalement différent : un poste de travail pour chercheurs, pensé pour un métier précis, avec ses propres connecteurs et ses propres agents spécialisés.

Les deux annonces racontent la même histoire depuis deux angles différents : le modèle généraliste devient une brique d'exécution sur laquelle on construit des couches spécialisées — que ce soit un agent qui code, un agent qui négocie un bon de commande WhatsApp, ou un agent qui vérifie les citations d'un article scientifique. C'est le sujet qui nous intéresse ici, bien plus que le classement brut des benchmarks.

1. Claude Sonnet 5 : le modèle qui referme l'écart avec Opus 4.8

Claude Sonnet 5 est présenté par Anthropic comme « le Sonnet le plus agentique jamais publié » : capable d'établir un plan, de piloter des outils (navigateur, terminal) et de mener une tâche de bout en bout de façon autonome, à un niveau qui jusque-là n'était atteint que par les modèles Opus, plus coûteux. Concrètement, il termine des tâches multi-étapes là où les précédents Sonnet s'arrêtaient en cours de route.

Le modèle est disponible par défaut sur les plans Free et Pro, accessible aux utilisateurs Max, Team et Enterprise, et exposé via l'API Claude (identifiant claude-sonnet-5), Claude Code et la Claude Platform.

2. Les benchmarks, chiffres à l'appui

Plutôt que de reprendre la formule marketing « proche d'Opus 4.8 », voici les chiffres tels que publiés par Anthropic et recoupés par un comparatif indépendant.

Benchmark	Sonnet 4.6	Sonnet 5	Opus 4.8
SWE-bench Pro (codage agentique)	58,1 %	63,2 %	69,2 %
Terminal-Bench 2.1	67,0 %	80,4 %	non communiqué
OSWorld-Verified (usage d'ordinateur)	78,5 %	81,2 %	non communiqué
Humanity's Last Exam (avec outils)	46,8 %	57,4 %	57,9 %
GDPval-AA v2 (travail de connaissance)	non communiqué	1 618	1 615

Deux points méritent d'être soulignés. D'abord, le gain n'est pas marginal : sur Terminal-Bench 2.1, qui mesure la capacité à mener des tâches réelles en ligne de commande, Sonnet 5 gagne 13 points sur son prédécesseur. Ensuite, sur GDPval-AA v2 — un benchmark de travail de connaissance — Sonnet 5 dépasse légèrement Opus 4.8, ce qui est inhabituel pour un modèle intermédiaire face au haut de gamme de la même famille.

Sécurité et fiabilité : ce qu'Anthropic corrige en silence

C'est la partie la moins mise en avant dans la communication, et pourtant la plus pertinente pour une entreprise qui doit rendre des comptes sur son usage de l'IA (RGPD, AI Act). Anthropic indique pour Sonnet 5 : un taux de comportements indésirables plus faible que Sonnet 4.6, une meilleure résistance aux tentatives d'injection de prompt, un taux d'hallucination et de sycophancy (tendance à approuver l'utilisateur plutôt qu'à le corriger) réduit, et — signal notable côté cybersécurité — 0 % de réussite sur une batterie de tests visant à lui faire développer un exploit logiciel fonctionnel contre Firefox. Les garde-fous cyber sont activés par défaut au lancement.

3. Prix et disponibilité : ce qui change pour votre budget IA

C'est souvent le point le plus concret pour une entreprise qui fait tourner des agents en production : le coût par token.

Modèle	Entrée ($/M tokens)	Sortie ($/M tokens)
Sonnet 4.6	3 $	15 $
Sonnet 5 — lancement (jusqu'au 31/08/2026)	2 $	10 $
Sonnet 5 — tarif standard (à partir du 01/09/2026)	3 $	15 $
Opus 4.8	5 $	25 $

Pendant deux mois, Sonnet 5 coûte donc le même prix que Sonnet 4.6 avait avant lui, pour des performances nettement supérieures et plus proches d'Opus — un modèle presque deux fois et demi plus cher. Passé le 31 août, le tarif remonte au niveau de Sonnet 4.6 (3 $ / 15 $), ce qui reste la même grille tarifaire qu'avant, pour un modèle strictement meilleur. Dans les deux cas, c'est un rapport qualité-prix qui s'améliore, sans contrepartie cachée identifiée à ce jour.

4. Claude Science : quand l'IA générale devient un outil de laboratoire

La deuxième annonce du 30 juin change de registre. Claude Science est un environnement de travail (« workbench ») qui intègre dans un seul endroit les outils, bibliothèques et bases de données que les chercheurs utilisent au quotidien — jusqu'ici dispersés entre notebooks, scripts et logiciels spécialisés.

Concrètement, la plateforme propose :

Plus de 60 compétences et connecteurs pré-configurés pour la génomique, l'analyse single-cell, la protéomique, la biologie structurale et la chimie computationnelle (cheminformatics).
Un rendu natif des artefacts scientifiques : structures protéiques en 3D, pistes de navigateur génomique, structures chimiques.
Un système multi-agents : un agent généraliste qui coordonne, des agents spécialistes par domaine, et un agent réviseur dont le rôle est de vérifier les citations et les calculs, et de signaler ou corriger les erreurs.
Un accès flexible au calcul : sur un ordinateur personnel (macOS, Linux), à distance via SSH sur un cluster HPC, ou sur des GPU à la demande via Modal.
Des artefacts entièrement reproductibles — code complet et historique des échanges conservés.
Une intégration avec le BioNeMo Agent Toolkit de NVIDIA et ses modèles spécialisés (Evo 2, Boltz-2, OpenFold3).

La plateforme est en bêta pour les utilisateurs Claude Pro, Max, Team et Enterprise, sur macOS et Linux. Anthropic cite déjà plusieurs cas d'usage concrets : Manifold Bio l'utilise pour la nomination de cibles thérapeutiques, l'Allen Institute a réduit un processus de revue de littérature multi-agents de deux ans à quelques semaines, et le UCSF Brain Tumor Center a accéléré l'analyse de variants germinaux d'un facteur proche de dix. Anthropic propose aussi jusqu'à 50 bourses de recherche (30 000 $ de crédits chacune), candidatures ouvertes jusqu'au 15 juillet 2026.

La limite honnête à connaître

Soyons clairs : Claude Science n'est pas un outil pour automatiser les processus d'une PME industrielle, d'un cabinet d'avocats ou d'une agence d'intérim. C'est un produit vertical, pensé et câblé pour un métier précis — la recherche en sciences de la vie. Si votre activité n'est pas la recherche biopharmaceutique ou la génomique, cette annonce ne vous concerne pas directement en tant qu'outil à utiliser. Elle vous concerne comme signal de marché — voir la section suivante.

5. Ce que ces deux annonces révèlent, au-delà des chiffres

Voici pourquoi on a choisi de traiter ces deux sorties dans le même article plutôt que séparément. Le même jour, Anthropic a livré : un moteur d'exécution agentique généraliste, moins cher et plus capable ; et un produit vertical, avec ses propres connecteurs, ses propres agents spécialisés, et un agent dédié au contrôle qualité (la vérification des citations et des calculs).

C'est exactement la logique qu'on applique nous-mêmes, à l'échelle d'une PME, quand on construit une automatisation. Sur le projet mené pour Kappeler, fabricant alsacien d'enseignes lumineuses, le pont entre la photo annotée d'un poseur et le plan de façade généré dans le logiciel de conception métier est piloté par Claude via le protocole MCP — pas un chatbot générique, un agent branché sur les outils réels de l'entreprise, avec un rôle précis. Le principe est identique à celui de Claude Science : un modèle de fondation puissant devient utile dans un métier précis parce qu'il est câblé sur les bons outils, pas parce qu'il « sait tout faire » en théorie.

Pour une entreprise qui envisage d'automatiser avec l'IA, la conclusion pratique est simple : la question n'est plus « quel est le meilleur modèle ? », mais « quel agent, câblé sur quels outils, avec quelle vérification, pour quelle tâche précise ? ». C'est le sujet de notre page automatisation IA pour entreprise, et c'est ce qui distingue un projet qui tient dans le temps d'un simple abonnement à un chatbot.

6. Ce que ça change concrètement pour vos projets d'automatisation

Trois conséquences directes, sans exagérer leur portée :

Le coût baisse. Pour tout agent construit sur Sonnet, la facture par token diminue de 33 % jusqu'au 31 août 2026, et le modèle reste au même tarif que son prédécesseur au-delà — pour des capacités nettement supérieures. Sur un agent qui traite un volume régulier (facturation, support, matching de candidats), l'effet se voit directement sur la ligne de coût.
Les tâches longues aboutissent plus souvent. Les gains sur Terminal-Bench (+13 points) et OSWorld traduisent une capacité accrue à mener une tâche multi-étapes jusqu'au bout sans intervention humaine — c'est précisément ce qui limite aujourd'hui la fiabilité des agents en production.
La vérification devient une brique à part entière. L'agent réviseur de Claude Science (qui contrôle citations et calculs) illustre une tendance de fond : les architectures d'agents sérieuses intègrent désormais un contrôle qualité automatisé, pas seulement un agent qui « fait le travail ».

Une réserve honnête pour finir : ces benchmarks sont publiés par Anthropic (et recoupés par un comparatif tiers, pas par nous-mêmes). Un score de benchmark ne se traduit pas mécaniquement en gain sur votre processus métier — le meilleur moyen de le savoir reste de tester sur un cas réel, pas sur une moyenne publique.

Un modèle plus capable, moins cher : le bon moment pour tester un agent sur votre processus

On regarde avec vous ce qu'un agent construit sur Claude Sonnet 5 changerait concrètement sur une tâche précise de votre entreprise — sans jargon technique, avec un chiffrage réaliste.

Parler de votre projet d'automatisation →

Questions fréquentes

Qu'est-ce que Claude Sonnet 5, en une phrase ?

C'est le nouveau modèle intermédiaire d'Anthropic (sorti le 30 juin 2026), présenté comme le Sonnet le plus agentique à ce jour : il planifie, utilise des outils (navigateur, terminal) et mène des tâches multi-étapes de façon autonome, avec des performances qui se rapprochent nettement du modèle haut de gamme Opus 4.8, à un prix inférieur.

Claude Sonnet 5 est-il aussi bon qu'Opus 4.8 ?

Presque, mais pas tout à fait, sauf sur un point. Sur le codage agentique (SWE-bench Pro), Opus 4.8 reste devant (69,2 % contre 63,2 %). Sur Humanity's Last Exam avec outils, l'écart est minime (57,9 % contre 57,4 %). Et sur le benchmark de travail de connaissance GDPval-AA v2, Sonnet 5 dépasse même légèrement Opus 4.8 (1 618 contre 1 615). Le choix dépend donc de la tâche, pas d'un classement unique.

Combien coûte Claude Sonnet 5 ?

2 $ par million de tokens en entrée et 10 $ en sortie, en tarif de lancement jusqu'au 31 août 2026. Ensuite, le tarif standard passe à 3 $ / 15 $ par million de tokens — soit le même prix que Sonnet 4.6, pour un modèle strictement plus performant. À titre de comparaison, Opus 4.8 coûte 5 $ / 25 $ par million de tokens.

Qu'est-ce que Claude Science et à qui s'adresse-t-il ?

Claude Science est un environnement de travail lancé en bêta le 30 juin 2026, destiné aux chercheurs — en particulier en sciences de la vie, génomique et biologie structurale. Il intègre plus de 60 connecteurs métier, un système multi-agents avec un agent réviseur qui vérifie citations et calculs, et gère le calcul depuis un poste local ou un cluster HPC distant.

Claude Science est-il utile pour une PME hors biotech/recherche ?

Non, pas directement. C'est un outil vertical conçu et câblé pour la recherche scientifique, pas pour l'automatisation de processus métier généralistes. Son intérêt pour une PME industrielle, juridique ou RH est indirect : il illustre la direction que prend le marché — des agents spécialisés, branchés sur des outils réels, plutôt qu'un chatbot générique.

Ces annonces changent-elles quelque chose pour des projets d'automatisation IA existants ?

Pour tout agent déjà construit sur un modèle Sonnet, la migration vers Sonnet 5 apporte en général un double gain : un coût par token plus bas (jusqu'au 31 août 2026) et une meilleure capacité à finir des tâches multi-étapes sans intervention humaine. L'impact réel dépend toutefois du processus concerné — un test sur cas réel reste plus fiable qu'un score de benchmark généraliste.

Où trouver les chiffres officiels de ces annonces ?

Directement sur les pages d'annonce d'Anthropic (anthropic.com/news), pour Claude Sonnet 5 comme pour Claude Science. Les tableaux de benchmarks détaillés de cet article recoupent ces sources officielles avec un comparatif indépendant publié le jour de la sortie.

Sources des chiffres : pages d'annonce officielles Anthropic « Introducing Claude Sonnet 5 » et « Claude Science, an AI workbench for scientists » (anthropic.com/news, 30/06/2026) ; comparatif indépendant de benchmarks et de prix Sonnet 5 / Sonnet 4.6 / Opus 4.8 publié le 30/06/2026. Les scores de benchmarks sont ceux publiés par Anthropic ; ils reflètent des conditions de test standardisées et peuvent différer des résultats observés sur un cas d'usage réel.

Un agent IA, câblé sur vos outils — pas un chatbot de plus

On évalue avec vous ce qu'un agent construit sur Claude Sonnet 5 (ou une autre brique, selon votre cas) changerait sur une tâche précise de votre entreprise. Diagnostic gratuit, sans engagement.

Réserver 30 min →

Nous intervenons dans toute la France

Implementation IA Lyon Implementation IA Marseille Implementation IA Montpellier Implementation IA Strasbourg Implementation IA Grenoble Implementation IA Aix-en-Provence

Prêt à intégrer l'IA dans vos processus ?

Audit IA gratuit. Nous identifions les cas d'usage les plus pertinents pour votre activité et vous accompagnons de A à Z.

Book my diagnostic Découvrir notre accompagnement IA

Claude Sonnet 5 et Claude Science : les deux annonces d'Anthropic qui comptent pour les PME

Deux annonces, un même jour, une direction claire

1. Claude Sonnet 5 : le modèle qui referme l'écart avec Opus 4.8

2. Les benchmarks, chiffres à l'appui

Sécurité et fiabilité : ce qu'Anthropic corrige en silence

3. Prix et disponibilité : ce qui change pour votre budget IA

4. Claude Science : quand l'IA générale devient un outil de laboratoire

5. Ce que ces deux annonces révèlent, au-delà des chiffres

6. Ce que ça change concrètement pour vos projets d'automatisation

Un modèle plus capable, moins cher : le bon moment pour tester un agent sur votre processus

Questions fréquentes

Qu'est-ce que Claude Sonnet 5, en une phrase ?

Claude Sonnet 5 est-il aussi bon qu'Opus 4.8 ?

Combien coûte Claude Sonnet 5 ?

Qu'est-ce que Claude Science et à qui s'adresse-t-il ?

Claude Science est-il utile pour une PME hors biotech/recherche ?

Ces annonces changent-elles quelque chose pour des projets d'automatisation IA existants ?

Où trouver les chiffres officiels de ces annonces ?

Nous intervenons dans toute la France

Prêt à intégrer l'IA dans vos processus ?

Related reading

GLM-5.2 sur cloud européen : faire tourner une IA de pointe en toute souveraineté

Claude Certified Architect : la certification qui distingue les vrais experts Claude

Claude vs ChatGPT vs Gemini : Quel LLM Choisir pour votre PME en 2026 ?

Describe your project — quote within 24 hours

Claude Sonnet 5 et Claude Science : les deux annonces d'Anthropic qui comptent pour les PME

Deux annonces, un même jour, une direction claire

1. Claude Sonnet 5 : le modèle qui referme l'écart avec Opus 4.8

2. Les benchmarks, chiffres à l'appui

Sécurité et fiabilité : ce qu'Anthropic corrige en silence

3. Prix et disponibilité : ce qui change pour votre budget IA

4. Claude Science : quand l'IA générale devient un outil de laboratoire

5. Ce que ces deux annonces révèlent, au-delà des chiffres

6. Ce que ça change concrètement pour vos projets d'automatisation

Un modèle plus capable, moins cher : le bon moment pour tester un agent sur votre processus

Questions fréquentes

Qu'est-ce que Claude Sonnet 5, en une phrase ?

Claude Sonnet 5 est-il aussi bon qu'Opus 4.8 ?

Combien coûte Claude Sonnet 5 ?

Qu'est-ce que Claude Science et à qui s'adresse-t-il ?

Claude Science est-il utile pour une PME hors biotech/recherche ?

Ces annonces changent-elles quelque chose pour des projets d'automatisation IA existants ?

Où trouver les chiffres officiels de ces annonces ?

Nous intervenons dans toute la France

Prêt à intégrer l'IA dans vos processus ?

Related reading

GLM-5.2 sur cloud européen : faire tourner une IA de pointe en toute souveraineté

Claude Certified Architect : la certification qui distingue les vrais experts Claude

Claude vs ChatGPT vs Gemini : Quel LLM Choisir pour votre PME en 2026 ?

Describe your project — quote within 24 hours

Cookie Preferences

Essential

Analytics

Marketing