Schema.org et LLMs : le guide complet pour structurer ses données pour l’IA

En bref

Schema.org est un vocabulaire standardisé de données structurées, créé en 2011 par Google, Microsoft, Yahoo et Yandex. Il permet d’annoter le contenu HTML de façon à ce que les machines, robots de recherche, LLMs, agents IA, comprennent la nature de ce qu’elles lisent, pas seulement les mots. Un article avec un schema Article est immédiatement identifié comme une publication datée. Une page FAQ avec un schema FAQPage expose ses questions et réponses de façon exploitable sans analyse du HTML. Ce guide couvre les schemas les plus importants pour la visibilité dans les moteurs de réponse IA, avec des exemples JSON-LD prêts à copier.

1. Pourquoi schema.org compte pour les LLMs

Les LLMs interagissent avec votre contenu à deux moments distincts :

L’entraînement (GPTBot, ClaudeBot, Applebot-Extended…). Les crawlers d’entraînement collectent des milliards de pages. Le schema.org leur permet de catégoriser le document (article, FAQ, organisation, personne), de détecter sa date et son auteur, et de comprendre les relations entre entités (sameAs, memberOf). Cela influence ce que le modèle « sait » de votre marque après entraînement.
Le retrieval web (RAG web) (Perplexity, ChatGPT Search). Le système crawle la page, en extrait les passages. Le schema Article avec dateModified est utilisé pour évaluer la fraîcheur. Le schema FAQPage expose directement les paires question/réponse au retrieval, chunks parfaitement structurés.

En parallèle, schema.org améliore les performances dans Google Search (Featured Snippets, Rich Snippets, AI Overviews) et dans Bing, qui est la source de données sous-jacente de Perplexity et ChatGPT Search. L’impact est donc à la fois direct (LLMs lisent le schema) et indirect (meilleur classement dans les index sources du RAG web).

2. Les schemas prioritaires par type de page

2.1 Article / BlogPosting

À utiliser sur toutes les pages de contenu éditorial (articles, guides, analyses). Champs essentiels :

{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "Titre exact de l'article",
  "description": "Résumé de 150-160 caractères",
  "datePublished": "2026-04-22",
  "dateModified": "2026-04-22",
  "inLanguage": "fr-FR",
  "author": {
    "@type": "Organization",
    "name": "Votre organisation",
    "url": "https://votre-site.fr"
  },
  "mainEntityOfPage": "https://votre-site.fr/article/"
}

Erreurs fréquentes : omettre dateModified (les LLMs ne peuvent pas détecter la fraîcheur), mettre une description vide ou identique au titre, omettre inLanguage sur les sites multilingues.

2.2 FAQPage

À utiliser sur les pages qui contiennent une section de questions/réponses. Ce schema est le plus directement exploité par les LLMs : il pré-mâche le travail de chunking en exposant des paires Q/R autoportantes.

{
  "@context": "https://schema.org",
  "@type": "FAQPage",
  "mainEntity": [
    {
      "@type": "Question",
      "name": "Qu'est-ce que le RAG ?",
      "acceptedAnswer": {
        "@type": "Answer",
        "text": "Le RAG (Retrieval Augmented Generation) est un système qui permet à un LLM de consulter des sources externes avant de générer sa réponse, pour produire des réponses citées et à jour."
      }
    }
  ]
}

Règle de qualité : chaque réponse (text) doit être autoportante (compréhensible sans lire la question) et complète (pas de « voir ci-dessus » ni de renvoi implicite). Une réponse de moins de 40 mots est souvent trop courte pour être exploitable.

2.3 Organization

À placer sur la homepage ou la page à-propos. Ce schema est le vecteur principal de la désambiguaïsation d’entité : il relie votre site à vos profils Wikidata, Wikipedia, LinkedIn, Crunchbase via sameAs. Les LLMs utilisent ces liens pour construire une représentation cohérente de votre organisation.

{
  "@context": "https://schema.org",
  "@type": "Organization",
  "name": "Nom de votre organisation",
  "url": "https://votre-site.fr",
  "logo": "https://votre-site.fr/logo.png",
  "description": "Description factuelle en 1-2 phrases",
  "foundingDate": "2024",
  "sameAs": [
    "https://www.wikidata.org/wiki/Q...",
    "https://fr.linkedin.com/company/...",
    "https://fr.wikipedia.org/wiki/..."
  ]
}

2.4 BreadcrumbList

À placer sur toutes les pages hors homepage. Signal de structure de site fort pour les LLMs, qui l’utilisent pour comprendre la hiérarchie thématique de votre contenu.

{
  "@context": "https://schema.org",
  "@type": "BreadcrumbList",
  "itemListElement": [
    {
      "@type": "ListItem",
      "position": 1,
      "name": "Accueil",
      "item": "https://votre-site.fr/"
    },
    {
      "@type": "ListItem",
      "position": 2,
      "name": "Insights",
      "item": "https://votre-site.fr/insights/"
    },
    {
      "@type": "ListItem",
      "position": 3,
      "name": "Schema.org et LLMs"
    }
  ]
}

2.5 HowTo

À utiliser sur les pages qui décrivent une procédure étape par étape. Ce schema est utilisé par Google AI Overviews pour les requêtes « comment ». Chaque HowToStep devient un chunk autoportant dans le pipeline RAG.

{
  "@context": "https://schema.org",
  "@type": "HowTo",
  "name": "Comment optimiser son site pour les <a href="/geo-generative-engine-optimization/">LLMs</a>",
  "step": [
    {
      "@type": "HowToStep",
      "position": 1,
      "name": "Étape 1 : Auditer le robots.txt",
      "text": "Vérifiez que les bots IA majeurs (GPTBot, PerplexityBot, ClaudeBot) ne sont pas bloqués dans votre <a href="/technique/">robots.txt</a>."
    },
    {
      "@type": "HowToStep",
      "position": 2,
      "name": "Étape 2 : Ajouter le schema Article",
      "text": "Ajoutez un bloc JSON-LD Article avec datePublished et dateModified sur chaque page de contenu."
    }
  ]
}

2.6 WebSite

À placer uniquement sur la homepage. Permet aux moteurs de recherche et aux LLMs de comprendre que votre site est une entité cohérente. Le champ potentialAction active le sitelinks search box dans Google.

{
  "@context": "https://schema.org",
  "@type": "WebSite",
  "name": "Nom du site",
  "url": "https://votre-site.fr",
  "inLanguage": "fr-FR",
  "description": "Description courte du site"
}

Attention : ne pas dupliquer le schema WebSite sur plusieurs pages, une seule instance sur la homepage suffit.

3. Injecter plusieurs schemas sur une même page

La technique recommandée en 2026 est d’injecter un tableau JSON-LD contenant plusieurs objets schema dans une seule balise <script type="application/ld+json"> :

<script type="application/ld+json">
[
  {
    "@context": "https://schema.org",
    "@type": "Article",
    "headline": "...",
    "datePublished": "2026-04-22",
    "dateModified": "2026-04-22"
  },
  {
    "@context": "https://schema.org",
    "@type": "FAQPage",
    "mainEntity": [...]
  }
]
</script>

Cette approche est validée par Google et lue correctement par les LLMs qui parsent le JSON-LD. Alternativement, on peut utiliser deux balises script distinctes.

4. Les erreurs de schema qui nuisent à la visibilité IA

4.1 Schema non cohérent avec le contenu visible

Si votre schema FAQPage liste des questions absentes du HTML visible, Google et les LLMs détectent l’incohérence. Règle : le schema doit refléter ce qu’un utilisateur verrait sur la page, pas un contenu invisible ou tronqué.

4.2 Données de date incorrectes ou manquantes

datePublished: "2026" n’est pas un format ISO 8601 valide. Utilisez "2026-04-22" (YYYY-MM-DD) ou "2026-04-22T10:00:00+02:00" (avec heure et fuseau). Un format invalide est ignoré par les parsers.

4.3 Organization.sameAs pointant vers des URLs brisées

Les LLMs vérifient (lors de l’entraînement ou du retrieval) que les liens sameAs résolvent bien vers une page qui mentionne votre entité. Une entrée Wikidata vide ou un lien LinkedIn 404 affaiblit le signal d’entité plutôt qu’il ne le renforce.

4.4 Schema WebSite dupliqué sur plusieurs pages

Une erreur courante dans les CMS qui injectent automatiquement le schema WebSite sur toutes les pages. Google le signale comme erreur de données structurées. Limitez WebSite à la homepage.

4.5 JSON-LD malformé

Un JSON invalide (virgule manquante, guillemet non échappé, accolade non fermée) fait que le parser ignore complètement le bloc. Vérifiez avec le Rich Results Test avant toute mise en production.

5. Schema.org et les surfaces IA en 2026

Surface	Schema le plus impactant	Impact observé
Google AI Overviews	Article, FAQPage, HowTo	Fort : AIO lit et cite les paires Q/R du FAQPage
Bing Copilot	Article, Organization	Modéré : améliore le classement Bing source du RAG
Perplexity	Article (dateModified)	Modéré : fraîcheur détectée, préférée pour requêtes actuelles
ChatGPT Search	Article, FAQPage	Modéré : même logique que Perplexity via Bing
LLMs (entraînement)	Organization + sameAs	Long terme : désambiguaïsation d’entité, représentation de la marque
Google Featured Snippets	FAQPage, HowTo	Fort et immédiat

6. Plan d’action : priorités d’implémentation

Semaine 1. Ajouter schema Article avec datePublished et dateModified sur toutes les pages de contenu. Vérifier avec le Rich Results Test.
Semaine 2. Ajouter schema FAQPage sur les pages qui contiennent déjà une section FAQ ou des Q/R. Relire chaque réponse pour vérifier l’autoportance.
Semaine 3. Ajouter schema Organization sur la homepage avec les champs sameAs renseignés (Wikidata, LinkedIn, Wikipedia si dispo). Créer l’entrée Wikidata si elle n’existe pas.
Semaine 4. Ajouter BreadcrumbList sur toutes les pages hors homepage. Auditer les schemas existants pour détecter les doublons WebSite et les formats de date incorrects.

Checklist schema.org pour LLMs

Schema Article avec datePublished + dateModified sur toutes les pages de contenu
dateModified mis à jour à chaque évolution substantielle
Schema FAQPage sur les pages avec sections Q/R
Chaque réponse FAQPage autoportante (≥ 40 mots)
Schema Organization avec sameAs sur la homepage
Schema WebSite uniquement sur la homepage (pas dupliqué)
Schema BreadcrumbList sur toutes les pages hors homepage
JSON-LD validé via Rich Results Test avant mise en production
Cohérence schema/contenu visible vérifiée

FAQ

Schema.org est-il indispensable pour être cité dans les LLMs ?

Non, pas indispensable, des pages sans schema sont citées. Mais schema.org améliore la précision avec laquelle les LLMs interprètent votre contenu : type de page, date de publication, auteur, questions/réponses structurées. Il réduit l’ambiguïté et augmente l’éligibilité pour les surfaces enrichies (Featured Snippets, AI Overviews, Bing Answers).

Quel schema est le plus utile pour le SEO IA ?

FAQPage est le plus direct : il expose explicitement des questions et réponses que les LLMs peuvent extraire. Article ou BlogPosting avec dateModified améliore la détection de fraîcheur. Organization avec sameAs crée l’entité de marque. En ordre de priorité : 1) Article/BlogPosting, 2) FAQPage sur les pages adaptées, 3) Organization sur la homepage, 4) BreadcrumbList sur toutes les pages.

Peut-on utiliser plusieurs schemas sur une même page ?

Oui, et c’est recommandé. Un article peut porter simultanément un schema Article (informations de publication) et un schema FAQPage (si l’article contient une section FAQ). La technique consiste à injecter un tableau JSON-LD contenant plusieurs objets. Google et les LLMs lisent l’ensemble.

Comment vérifier que mon schema est correctement lu ?

Trois outils : le Rich Results Test de Google (search.google.com/test/rich-results) pour vérifier la validité et l’éligibilité aux rich snippets, Schema.org Validator (validator.schema.org) pour la conformité au standard, et la rubrique « Données structurées » dans Google Search Console pour suivre les erreurs en production.

Le schema sert-il à ChatGPT ou Perplexity directement ?

Pas de confirmation officielle, mais par ricochet : le schema améliore le classement dans Google et Bing, qui sont les sources sous-jacentes des systèmes RAG web de ChatGPT Search et Perplexity. Un meilleur rang dans ces index augmente la probabilité d’être dans le pool de candidats du retrieval. De plus, les crawlers d’entraînement (GPTBot, ClaudeBot) lisent et indexent le schema.org pour comprendre la nature et la date du contenu.

Schema.org et LLMs