Skip to main content

Schema.org publie ses statistiques d'usage : ce que ça change (et ne change pas) pour votre SEO

Google ouvre les données d'adoption du vocabulaire schema.org : méthodologie du dataset, ses limites, et quatre usages concrets pour piloter vos données structurées à l'ère des moteurs IA.

Technique
Par Victor
12 min de lecture

Le 4 juin 2026, Schema.org a annoncé une première : la publication, en collaboration avec Google, de statistiques d'usage officielles pour l'ensemble de son vocabulaire. Pour chaque type et chaque propriété — Person, Product, FAQPage, price… — on sait désormais combien de domaines l'utilisent réellement sur le web public, données issues directement de l'infrastructure de crawl de Google et mises à jour chaque mois.

Disons-le d'emblée : ce n'est ni un signal de ranking, ni une nouvelle fonctionnalité de recherche. Mais c'est la première fois que Google ouvre une fenêtre chiffrée sur ce que son crawler observe en matière de données structurées. Cet article décortique la méthodologie du dataset, ses limites, ce qu'il ne change pas pour le SEO — et les quatre usages concrets qu'on peut en faire dès aujourd'hui.

À retenir

  • Google publie chaque mois l'adoption de ~5 500 termes schema.org, agrégée par domaine et arrondie en fourchettes (« 1M – 10M domaines »), en CSV et JSON sur le GitHub officiel.
  • Aucun impact direct sur le ranking : c'est de la télémétrie d'adoption, pas un nouveau signal ni un nouveau rich result.
  • L'usage le plus utile : une boussole pour choisir ses types — privilégier le vocabulaire à forte adoption, éviter les termes morts que personne ne consomme.
  • Le signal stratégique : Google investit toujours dans les données structurées — qui alimentent aussi ses systèmes d'IA. À l'heure des AI Overviews, le markup reste un canal d'entrée vers les réponses générées.
  • Pour un site PME, le socle gagnant ne change pas : Organization, WebSite, BreadcrumbList, Article, FAQPage, Service — tous dans les fourchettes d'adoption les plus hautes.

1. L'annonce : qui publie quoi, et où

L'annonce officielle du 4 juin 2026 décrit une collaboration entre Google et la communauté Schema.org : un jeu de données public recensant l'usage de chaque terme du vocabulaire — les types (Product, FAQPage, LocalBusiness…) comme les propriétés (price, datePublished…) — à travers des millions de domaines du web public.

Trois points de diffusion : les fichiers bruts (CSV et JSON, plus un résumé agrégé) sont publiés sur le dépôt GitHub officiel de Schema.org, la méthodologie est documentée sur la page About Usage Statistics, et les chiffres s'affichent désormais directement sur la fiche de chaque terme du site schema.org. Le fichier de mai 2026 recense environ 5 500 termes.

Détail qui compte : Google présente sa contribution comme la première d'une série, et invite explicitement les autres crawlers et indexeurs à publier leurs propres statistiques dans le même format ouvert. L'ambition affichée n'est pas un tableau de bord Google, mais un standard de transparence partagé sur l'adoption du web sémantique.

2. La méthodologie : domaines, buckets, mise à jour mensuelle

Le pipeline documenté par Google tient en trois étapes, et chacune a une conséquence directe sur la façon de lire les chiffres.

Comptage par domaine, pas par page

Les fréquences sont mesurées dans l'infrastructure de crawl public de Google, puis agrégées au niveau du domaine. Un site qui utilise BreadcrumbList sur 10 000 pages compte pour un seul domaine, exactement comme un site qui l'utilise sur une page. Le dataset mesure donc la largeur de l'adoption (combien de sites), pas sa profondeur (combien de pages).

Des fourchettes plutôt que des chiffres exacts

Au lieu de compteurs bruts — bruités au quotidien et sensibles côté vie privée — chaque terme est rangé dans un bucket de popularité : « < 1K », « 1K – 10K », « 10K – 100K », « 100K – 1M », « 1M – 10M », « 10M+ » domaines. Le format du CSV est minimaliste :

Class,Name,Domain Bucket
Itemtype,http://schema.org/BreadcrumbList,10M+
Itemtype,http://schema.org/Organization,10M+
Itemtype,http://schema.org/FAQPage,1M - 10M
Itemtype,http://schema.org/BlogPosting,1M - 10M
Itemtype,http://schema.org/LocalBusiness,1M - 10M
Itemtype,http://schema.org/AMRadioChannel,< 1K

Publication mensuelle

Un nouveau fichier est poussé sur GitHub chaque mois. Avec les buckets, cette granularité est volontairement grossière : on n'y lira pas des micro-variations, mais des tendances de fond — un terme qui change de fourchette d'un trimestre à l'autre, un nouveau type qui décolle, un terme déprécié qui s'éteint.

3. Les limites à garder en tête

  • Adoption ≠ consommation. Qu'un type soit présent sur 10 millions de domaines ne dit pas que Google (ou quiconque) en fait quelque chose. La liste des markups qui déclenchent des résultats enrichis reste documentée séparément, dans la documentation Google Search — et elle est bien plus courte que le vocabulaire complet.
  • Un seul point de vue pour l'instant. Les chiffres reflètent ce que voit le crawler de Google : son périmètre de crawl, ses choix d'extraction. L'invitation lancée aux autres indexeurs vise précisément à corriger ce biais, mais à ce jour il n'y a qu'une source.
  • Pas de dimension qualité. Un markup syntaxiquement présent mais faux, incomplet ou incohérent avec le contenu visible compte autant qu'un markup exemplaire. Le dataset mesure la présence, pas la validité.
  • Pas de segmentation. Ni par langue, ni par pays, ni par secteur. Impossible d'en tirer « l'adoption de Service chez les PME françaises » — c'est une vue monde, tous sites confondus.

La bonne lecture : ce dataset est un instantané de ce que le crawler de Google rencontre, pas un classement de ce qui « marche en SEO ». Il répond à une seule question, mais il y répond avec des données officielles : ce terme est-il réellement utilisé par l'écosystème, ou suis-je en train de baliser dans le vide ?

4. Ce que ça ne change pas pour le SEO

Trois clarifications, parce que ce genre d'annonce génère vite des sur-interprétations :

Ce n'est pas un signal de ranking. Rien dans l'annonce ni dans la documentation ne lie ces statistiques au classement. Utiliser un type populaire ne fait pas monter une page ; utiliser un type confidentiel ne la fait pas descendre. Les données structurées n'ont jamais été un facteur de positionnement direct — elles conditionnent l'éligibilité à des affichages enrichis et la compréhension du contenu, pas le rang.

Ça ne crée aucun nouveau résultat enrichi. Les règles d'affichage (et leurs restrictions successives, comme celle des FAQ rich results en 2023) restent inchangées. Un markup FAQPage conserve exactement la même utilité qu'avant l'annonce — y compris son rôle pour les systèmes d'IA, qui est aujourd'hui la principale raison de le maintenir.

Ça n'impose aucune migration. Si votre socle de markup est fait de vocabulaire mainstream correctement implémenté, le dataset ne fait que confirmer vos choix. Aucune action corrective n'est requise — c'est d'ailleurs le cas de la plupart des sites construits proprement, comme nous le détaillons dans nos tendances webdesign 2026 côté technique.

5. Quatre usages concrets du dataset

1. Choisir ses types avec des données, pas des intuitions

Avant d'implémenter un type exotique, vérifier son bucket. Un terme à « < 1K » domaines a très peu de chances d'être consommé par les parseurs et les modèles entraînés sur le web ; un terme à « 1M – 10M » est un standard de fait. À pertinence sémantique égale, prendre le plus adopté.

2. Justifier ses recommandations en audit

La documentation le dit elle-même : « use official data to justify your work ». Dans un audit SEO ou un cahier des charges, une recommandation de markup appuyée sur des chiffres d'adoption officiels Google pèse plus qu'un avis d'expert.

3. Surveiller le cycle de vie du vocabulaire

La publication mensuelle permet de repérer les termes qui s'éteignent (candidats à la dépréciation) et ceux qui décollent. Utile pour ne pas construire sur du vocabulaire en fin de vie, et pour détecter tôt les nouveaux standards.

4. Alimenter ses propres outils

Le format CSV/JSON se consomme en quelques lignes de code : enrichir un linter de markup interne, pondérer les suggestions d'un générateur de schémas, croiser avec un crawl de site pour prioriser les chantiers. C'est une brique d'automatisation comme une autre.

6. La lecture stratégique : pourquoi Google ouvre ces données maintenant

Schema.org a quinze ans, et Google aurait pu publier ces statistiques à n'importe quel moment. Le timing n'est pas anodin : il intervient au moment précis où les réponses générées par IA — AI Overviews dans la recherche Google, assistants conversationnels, moteurs de réponse — redistribuent la façon dont les contenus sont découverts et cités.

Dans ce contexte, les données structurées changent de rôle. Historiquement, elles servaient surtout à décrocher des affichages enrichis dans les pages de résultats. Aujourd'hui, elles sont un canal d'alimentation des systèmes qui lisent le web pour le compte des utilisateurs : un contenu balisé proprement est plus facile à extraire, à attribuer et à citer pour un moteur génératif. En publiant ces statistiques — et en les affichant sur chaque fiche de terme — Google envoie un signal d'investissement durable dans cette couche sémantique, au moment où certains doutaient de son avenir.

L'appel aux autres crawlers va dans le même sens : un vocabulaire commun n'a de valeur que si tout l'écosystème — moteurs classiques, moteurs IA, agrégateurs — le consomme et le mesure. Pour les éditeurs de sites, la conséquence pratique est claire : le markup n'est plus seulement un sujet « rich snippets », c'est une partie de votre lisibilité machine, celle qui détermine si les systèmes d'IA vous comprennent et vous citent. C'est le même mouvement de fond que nous décrivons dans notre guide de l'IA générative en entreprise, et qui touche aussi les protocoles d'accès au contenu comme MCP.

7. En pratique : le socle de données structurées d'un site PME

Le dataset de mai 2026 confirme, chiffres officiels à l'appui, que le socle classique d'un site d'entreprise est massivement standard. Extrait des fourchettes d'adoption pour les types qui concernent directement un site PME :

Type schema.org Adoption (domaines) Usage typique sur un site PME
Organization / WebSite / WebPage10M+Identité de l'entreprise et du site, sur toutes les pages
BreadcrumbList10M+Fil d'Ariane, affiché dans les résultats de recherche
Person / ImageObject10M+Auteurs (E-E-A-T), visuels
Article / BlogPosting1M – 10MContenus éditoriaux, blog
FAQPage1M – 10MQuestions fréquentes — précieux pour l'extraction par les IA
Service / Product / Offer1M – 10MOffres de services et produits
LocalBusiness1M – 10MÉtablissement local, SEO de proximité
ProfessionalService100K – 1MVariante métier de LocalBusiness — adoption plus étroite

Source : dataset Google / Schema.org, fichier de mai 2026 (GitHub officiel).

Deux enseignements de ce tableau. D'abord, tout le socle utile vit dans les fourchettes hautes : pas besoin de vocabulaire exotique pour bien décrire une entreprise, ses services et ses contenus. Ensuite, la comparaison LocalBusiness (1M – 10M) contre ProfessionalService (100K – 1M) illustre l'arbitrage type que permet le dataset : le sous-type est sémantiquement plus précis, mais dix fois moins adopté — le bon choix dépend alors de qui vous voulez être compris, et un LocalBusiness avec une propriété additionalType est souvent le compromis le plus sûr.

Le reste ne change pas : du JSON-LD plutôt que des microdonnées dispersées, une validation systématique (validator.schema.org et le test de résultats enrichis Google), et surtout une cohérence stricte entre le markup et le contenu visible — un schéma qui promet ce que la page ne montre pas est au mieux ignoré, au pire pénalisé. Ces fondations font partie de tout site vitrine professionnel bien construit.

8. FAQ

Non. Le dataset est de la télémétrie d'adoption : il décrit combien de domaines utilisent chaque terme, rien de plus. Les données structurées elles-mêmes ne sont pas un facteur de positionnement direct — elles conditionnent l'éligibilité à des affichages enrichis et aident les moteurs (classiques et IA) à comprendre le contenu. Utiliser un type populaire ne fait pas monter une page dans les résultats.

Sur le dépôt GitHub officiel de Schema.org, dossier data/public_stats/google. Chaque mois, trois fichiers : un CSV et un JSON contenant les mêmes données (terme par terme, avec son bucket d'adoption), plus un JSON de synthèse avec la distribution agrégée des buckets. Les chiffres sont aussi affichés directement sur la fiche de chaque terme sur schema.org.

Pour deux raisons documentées : la stabilité — des compteurs exacts fluctuent quotidiennement au gré du crawl et créeraient du bruit sans signification — et la confidentialité, l'agrégation par fourchettes évitant d'exposer des informations trop précises sur le crawl. Les buckets (de « moins de 1 000 » à « plus de 10 millions » de domaines) suffisent pour l'usage prévu : repérer les standards de fait et les tendances de fond.

Dans l'immense majorité des cas, non. Si votre site utilise le socle standard (Organization, BreadcrumbList, Article, FAQPage, Service…), le dataset confirme vos choix : tous ces types sont dans les fourchettes d'adoption les plus hautes. Le seul cas qui mérite un réexamen : un markup construit sur des types très confidentiels (« < 1K » domaines), qu'il peut être judicieux de doubler ou remplacer par leur équivalent générique plus adopté.

Les systèmes qui génèrent des réponses lisent le web en machine : un contenu balisé proprement est plus facile à extraire, à relier à son auteur et à son organisation, et donc à citer correctement. Le markup ne garantit pas la citation, mais il réduit la friction d'interprétation — c'est l'une des raisons pour lesquelles maintenir un FAQPage propre reste pertinent même après la disparition des FAQ rich results classiques. La publication de ce dataset confirme que cette couche sémantique reste un investissement actif de Google.

Pour conclure

Ce dataset ne bouleverse rien : il rend mesurable ce qui relevait jusqu'ici de l'intuition. Pour le quotidien d'un site PME, c'est une validation du socle standard et une boussole pour les arbitrages de markup. Pour la lecture de fond, c'est un signal : à l'heure où les moteurs IA réécrivent l'accès à l'information, Google continue d'investir dans la couche qui rend les sites lisibles par les machines — et c'est là que se joue une partie de la visibilité de demain.

Votre site est-il lisible par les machines ?

30 minutes pour auditer vos données structurées, votre lisibilité par les moteurs IA et les chantiers à prioriser.

VG

Victor Glesskrumhorn

Fondateur & Consultant IA — JAIKIN

Expert en implémentation IA et automatisation pour PME et ETI. Accompagne des entreprises en France, en Allemagne et en Suisse, de la cartographie des processus à la mise en production.

Décrivez votre projet — devis sous 24 h

Réponse personnelle d'un expert, sans engagement.

Devis gratuit sous 24 h