Structure de contenu pour LLM : chunking, autoportance, contenu citable

Principe central : écrire pour le retrieval

Les moteurs IA en mode recherche (ChatGPT Search, Perplexity, AI Overviews) fonctionnent en deux temps : un retrieval qui récupère des passages pertinents dans un corpus, puis une génération qui synthétise une réponse en citant ces passages. Optimiser pour le retrieval, c'est rendre chacun de vos paragraphes lisible hors contexte.

Règle d'or : tout paragraphe qui exige d'avoir lu le précédent pour être compris est un paragraphe faible en GEO.

Chunking : la granularité qui compte

Les systèmes de retrieval découpent les documents en chunks de quelques centaines à quelques milliers de caractères. Les frontières de chunk suivent souvent la structure HTML (titres, paragraphes).

Composant HTML	Rôle dans le chunking	Bonne pratique
H2	Frontière forte	Un H2 égale une intention distincte, avec sa requête de longue traîne implicite.
H3	Frontière secondaire	Sous-question ou sous-aspect, jamais décoratif.
Paragraphe	Unité de chunk typique	3 à 6 lignes. Une idée par paragraphe.
Liste	Chunk quasi extractible tel quel	Items autoportants, pas de renvoi à « voir ci-dessus ».
Tableau	Très bien extrait	En-têtes clairs, cellules courtes, éviter les cellules fusionnées.

Autoportance : tester chaque passage

Test simple : copiez n'importe quel paragraphe de votre page et collez-le dans un message vide à un collègue. Si le paragraphe reste compréhensible, il est autoportant.

Évitez les pronoms sans antécédent (« il permet... » au milieu d'une page).
Re-nommez les entités principales en début de section.
Définissez les acronymes en première occurrence locale, pas uniquement en début de page.
Datez les affirmations temporelles (« en 2026 », pas « cette année »).

Contenu citable (citation-friendly)

Un passage cité est un passage que le modèle peut exhiber avec confiance. Il a trois caractéristiques :

Une affirmation nette. « Google AI Overviews a été généralisé en France en 2025 » est citable. « L'IA change le SEO » ne l'est pas.
Un contexte minimum. Qui, quoi, quand. Pas d'ambiguïté sur le sujet.
Une vérifiabilité. Une source externe, une donnée publiée, un auteur.

Faible : « Perplexity est en forte croissance. » Citable : « Perplexity revendique 15 millions d'utilisateurs actifs mensuels en 2025, en croissance d'environ 40 % sur l'année selon sa communication publique. »

Entités et désambiguïsation

Les LLMs relient vos contenus à des entités. Si votre marque partage son nom avec autre chose (plante, personnalité, autre entreprise), la désambiguïsation est prioritaire. Techniques :

Co-occurrence systématique avec les marqueurs du domaine : secteur, produit, segment client.
Lien fondateur vers Wikipedia, Wikidata, LinkedIn officiel et site officiel, via sameAs dans le schema Organization.
Biographie factuelle sur une page À propos, avec dates, lieux, activités, sources.
Cohérence éditoriale : même ton, même terminologie sur tout le site et sur les canaux annexes (LinkedIn, presse, podcasts).

Anatomie d'une page GEO

H1 : requête principale, 6 à 12 mots, sans superlatifs.
Lede : 2 à 4 phrases qui répondent déjà à la question. Première phrase autoportante.
Dates : publication et dernière mise à jour, visibles.
H2 « En bref » : 3 à 5 puces, chacune citable telle quelle.
Corps : 5 à 8 sections H2 couvrant les sous-intentions.
Tableau ou checklist : au moins un élément dense et extractible.
FAQ contextuelle : 3 à 6 questions locales, pas génériques.
Maillage sortant : 3 à 6 liens internes contextuels, 1 à 3 liens externes sources.
Auteur et organisation : schema.org Article et Organization.

Longueur, format, densité

Il n'y a pas de longueur magique. Une page doit couvrir son sujet, pas un quota de mots. Points repères :

Pilier : 2 000 à 4 000 mots, 6 à 10 H2.
Satellite : 800 à 1 500 mots, 3 à 5 H2.
FAQ ou définition : 400 à 800 mots, réponses autoportantes.

Avant et après : cinq réécritures concrètes

Les principes théoriques deviennent concrets dans la réécriture. Voici cinq paires représentatives des cas les plus fréquents observés sur des sites francophones.

1. Pronoms flottants vers entités nommées

Avant : « Cette technique est utilisée par de nombreuses entreprises pour améliorer leur visibilité en ligne. » Après : « Le balisage schema.org de type Article est utilisé par les sites éditoriaux pour signaler aux moteurs IA le titre, l'auteur et la date de publication d'un contenu. » Le premier exemple empile trois entités non nommées ; hors contexte, il ne dit rien.

2. Affirmation vague vers donnée citable

Avant : « Les AI Overviews de Google changent la façon dont les utilisateurs cherchent. » Après : une affirmation chiffrée, géolocalisée, datée et sourcée. Quatre ancres factuelles (chiffre, géographie, date, source) rendent le passage citable et vérifiable.

3. Introduction auto-référentielle vers lede BLUF

Avant : « Dans cet article, nous allons voir pourquoi il est important d'optimiser votre site... » Après : « Optimiser un site pour les LLMs revient à rendre chaque passage extractible et citable hors contexte. Trois règles structurent ce travail : autoportance des paragraphes, densité factuelle, désambiguïsation des entités. » Le principe BLUF (Bottom Line Up Front) place la réponse en première phrase.

4. H2 décoratif vers H2 sémantique

Avant : « Notre approche », « En savoir plus », « Conclusion ». Après : « Comment configurer robots.txt pour autoriser GPTBot et ClaudeBot », « Différence entre GEO, AEO et SEO classique ». Les H2 reformulant une requête réelle deviennent des ancres que le retrieval associe directement à la question d'un utilisateur.

5. Passage dépendant du contexte vers passage autoportant

Avant : « Comme indiqué dans la section précédente, cette méthode doit être appliquée en priorité aux pages piliers. » Après : « La réécriture en autoportance doit être appliquée en priorité aux pages piliers, les 3 à 5 pages qui concentrent l'essentiel du trafic organique et des citations IA. » Les références exophores rendent un chunk opaque une fois extrait seul.

E-E-A-T et structure de contenu

L'E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness) est un cadre d'évaluation de la qualité du contenu utilisé par Google dans ses quality rater guidelines. Les LLMs ne l'appliquent pas explicitement, mais les signaux structurels qui le matérialisent améliorent la confiance algorithmique dans un contenu.

Experience se signale par des exemples concrets nommés avec dates et résultats, des comparaisons issues d'usage réel, des erreurs documentées avec cause et correction, des données brutes accessibles. Un contenu d'expérience contient des détails que seul quelqu'un ayant pratiqué peut fournir.

Expertise se signale par la précision terminologique, la couverture des cas limites, des références à des sources primaires (études, documentation officielle), et une FAQ qui traite les questions avancées plutôt que basiques.

Authoritativeness est visible via le schema Organization avec sameAs vers des profils vérifiables, des backlinks éditoriaux de sources reconnues, les citations croisées internes, et un topic cluster cohérent. Dix pages sur un même domaine font plus autorité qu'une seule page exhaustive.

Trustworthiness se matérialise par des dates de publication et de mise à jour visibles et dans le schema, des sources nommées et liées, un auteur identifié, une politique éditoriale explicite. L'absence de date est le signal de fiabilité négatif le plus répandu.

Les quatre dimensions E-E-A-T se lisent dans la structure avant de se lire dans le texte. Un contenu non daté, sans auteur identifié et sans liens externes sources peut être excellent : il n'en a aucun signal structurel.

Erreurs fréquentes observées

Murs de texte : paragraphes de 15 lignes, invisibles en retrieval.
H2 décoratifs : « Conclusion », « Introduction », « En savoir plus » portent zéro requête.
Schemas JSON-LD contradictoires avec le contenu visible (auteur absent, date fausse, type erroné).
Contenu IA non révisé, qui empile des formulations vides.
Duplications inter-pages qui diluent l'autorité.
Références exophores (« comme vu précédemment », « cette méthode ») en début de paragraphe.
Lede auto-référentiel au lieu de répondre immédiatement.

Checklist express

Chaque H2 porte une intention claire et reformule une requête.
Chaque paragraphe peut être lu isolément (test copier-coller).
Chaque affirmation chiffrée est datée et sourcée.
Chaque acronyme est défini en première occurrence.
La page contient au moins un tableau ou une checklist.
La page porte une date de mise à jour visible et en schema dateModified.
Le maillage interne sort vers au moins 3 autres pages du site.
Les schemas sont validés via le Rich Results Test.
Le schema Article inclut author, publisher et mainEntityOfPage.
Les pages FAQ portent un schema FAQPage avec réponses autoportantes.
Aucun H2 ne commence par « Introduction », « Conclusion » ou « En savoir plus ».
Le lede répond à la question principale sans renvoyer à la suite.

Questions fréquentes

Quelle longueur idéale pour un paragraphe optimisé pour les LLMs ?

3 à 6 lignes est la recommandation standard. Un paragraphe de 3 lignes est rarement trop court s'il est factuel et autoportant. Au-delà de 8 lignes, le chunk dépasse la fenêtre d'extraction typique d'un système RAG. La longueur est secondaire à la densité factuelle : un paragraphe court et précis surpasse un paragraphe long et vague.

Faut-il utiliser des listes à puces ou du texte continu ?

Les deux sont valides pour les LLMs. Les listes sont extractibles telles quelles et facilitent le retrieval sur des comparaisons ou des étapes. Le texte continu est préférable pour les raisonnements, les nuances et les définitions. La règle : ne pas transformer en liste ce qui gagnerait à être expliqué, ne pas noyer dans des paragraphes ce qui devrait être énuméré.

Comment structurer une FAQ pour qu’elle soit bien citée par les moteurs IA ?

Chaque question doit reformuler une requête naturelle qu'un utilisateur taperait. Chaque réponse doit être autoportante : lisible seule, sans avoir lu la question, avec au moins 2 à 3 phrases complètes. Ajoutez le schema FAQPage JSON-LD pour signaler explicitement la structure aux moteurs. Évitez les réponses qui commencent par 'Oui' ou 'Non' seul.

Les H1, H2 et H3 influencent-ils vraiment le retrieval IA ?

Oui. Les systèmes de retrieval vectoriel utilisent les titres HTML comme métadonnées implicites : un passage texte est indexé avec son contexte de titre. Un H2 'En savoir plus' ne signale rien de précis ; un H2 'Comment désambiguïser une entité de marque pour les LLMs' est directement utilisable comme requête. Les titres sont les seuls éléments de navigation sémantique que les bots IA exploitent sans exécution JavaScript.

Un contenu bien optimisé pour Google l’est-il automatiquement pour les LLMs ?

Partiellement. Un bon SEO technique (structure propre, vitesse, canonical, schemas) aide dans les deux cas. Mais les LLMs valorisent davantage l'autoportance des passages, la densité factuelle et la désambiguïsation des entités, trois dimensions que le SEO classique n'optimise pas systématiquement. Un site bien optimisé pour le SEO a 60 à 70 % du travail GEO fait ; le reste est éditorial.

À lire ensuite : la méthode en 6 étapes, l'optimisation technique (crawl, schema, bots IA) et la méthodologie LOOP qui unifie contenu et technique.

Structure de contenu pour les LLMs.