Une analyse menée par Kevin Indig met en avant un phénomène récurrent dans les réponses de ChatGPT : les citations se concentrent davantage dans le haut des contenus. Sur 18 012 citations vérifiées, 44,2 % proviennent du premier tiers des pages analysées. L’étude relie aussi les passages les plus repris à plusieurs traits récurrents, comme des formulations définitoires, une structure claire ou une lecture plus accessible.
Une forte concentration des citations en haut de page
L’étude s’appuie sur 3 millions de réponses de ChatGPT et 30 millions de citations, avant isolation d’un corpus de 18 012 citations vérifiées.
Les chercheurs ont observé une distribution récurrente des citations à l’intérieur des contenus, décrite comme un effet de “pente descendante” : plus on avance dans la page, moins les citations sont fréquentes.
Comment se répartissent les citations dans les articles
Les résultats présentés sont les suivants :
- 44,2 % des citations proviennent du premier tiers du texte,
- 31,1 % se situent dans la partie centrale,
- 24,7 % viennent du dernier tiers.
L’étude signale une baisse marquée à mesure que l’on se rapproche du bas de page. Les auteurs précisent avoir vérifié cette tendance sur plusieurs échantillons aléatoires, avec des écarts jugés statistiquement significatifs.
Une logique différente à l’intérieur des paragraphes
À l’échelle du paragraphe, la répartition ne suit pas le même schéma. Les citations se concentrent davantage dans le milieu des paragraphes :
- 53 % proviennent de la partie centrale,
- 24,5 % de la première phrase,
- 22,5 % de la dernière phrase.
L’introduction des articles semble donc plus souvent mobilisée à l’échelle de la page, alors qu’au sein des paragraphes, ChatGPT reprend davantage le noyau informatif que la phrase d’ouverture.
Pourquoi le début des contenus est davantage repris
L’analyse avance que ce comportement peut être lié à la structure des corpus sur lesquels les grands modèles de langage ont été entraînés, notamment dans les univers journalistiques et académiques.
Dans ce type d’écriture, l’information principale apparaît souvent dès les premières lignes. Le cadrage initial sert alors de base pour interpréter le reste du contenu. Même avec des fenêtres de contexte étendues, le modèle semble attribuer une importance particulière aux éléments posés au début du texte.
Les caractéristiques les plus souvent retrouvées dans les passages cités
L’étude identifie cinq traits récurrents dans les extraits les plus souvent repris par ChatGPT.
1. Des formulations explicites
Les passages cités contiennent plus souvent des phrases définitoires ou des formulations directes, du type « X est » ou « X désigne ».
Les structures simples, avec un enchaînement clair entre sujet, verbe et complément, ressortent davantage que les formulations indirectes ou floues.
2. Une structuration en questions-réponses
Les contenus cités comportent plus souvent des points d’interrogation. L’analyse indique aussi que 78,4 % des citations associées à des questions proviennent d’intertitres H2.
Le modèle semble fréquemment traiter ces intertitres comme des questions, puis mobiliser le paragraphe qui suit comme élément de réponse.
3. Une présence plus forte de noms propres
Dans un texte anglais standard, la part de noms propres se situe généralement entre 5 % et 8 %. Dans les passages les plus cités, la moyenne relevée atteint 20,6 %.
La présence de marques, d’outils, de personnes ou de notions identifiables rend le contenu plus précis et réduit l’ambiguïté.
4. Un ton mesuré
Les extraits les plus cités affichent un score moyen de subjectivité de 0,47. Ce niveau se situe entre neutralité stricte et opinion marquée.
L’étude décrit ainsi un ton proche de l’analyse, avec des faits exposés, puis une mise en perspective, sans basculer dans l’affirmation purement subjective.
5. Une lecture plus accessible
Les contenus les plus cités affichent un score moyen de 16 au test de lisibilité Flesch-Kincaid, contre 19,1 pour les contenus moins repris.
Cet indicateur, utilisé surtout en anglais, estime le niveau de difficulté de lecture à partir de la longueur des phrases et de la complexité des mots. Dans les résultats observés, les phrases plus courtes et la syntaxe plus directe sont davantage associées aux citations.
Une méthode fondée sur l’association entre réponses et phrases sources
Pour relier les réponses de ChatGPT à des passages précis, l’équipe a utilisé des embeddings de type sentence-transformer.
Chaque citation vérifiée a ensuite été étudiée selon plusieurs critères :
- sa position dans la page,
- sa place dans le paragraphe,
- la présence de formulations définitoires,
- la densité d’entités nommées,
- la tonalité du passage,
- le niveau de lisibilité.
Les formats les plus structurés semblent davantage repris
L’étude souligne aussi que les contenus très narratifs ou de type « guide ultime » sont moins souvent cités que les formats plus hiérarchisés.
Les textes qui exposent rapidement une définition, un contexte, des entités identifiables et une réponse explicite apparaissent plus souvent dans les citations relevées.
Ce que montre cette analyse
Les résultats mettent en avant plusieurs éléments associés aux citations de ChatGPT. Une information principale visible tôt dans le texte, une formulation claire, une structure lisible et un niveau de précision élevé.
Ils n’impliquent pas qu’un seul format éditorial doive s’imposer, mais ils donnent des indications utiles sur les passages les plus susceptibles d’être repris dans des réponses générées.
Quelques points à retenir pour la structuration éditoriale
Plusieurs orientations ressortent de l’étude :
- faire apparaître rapidement l’information principale,
- intégrer des définitions explicites lorsque le sujet s’y prête,
- utiliser des intertitres clairs, parfois formulés comme des questions,
- nommer précisément les marques, outils, personnes ou concepts cités,
- conserver une syntaxe simple et des phrases plutôt courtes,
- adopter un ton analytique, sans excès d’opinion.
Ces éléments restent compatibles avec les exigences éditoriales habituelles : qualité de fond, précision, expertise et adéquation avec l’intention de recherche.
Un travail éditorial qui relève d’un savoir-faire
Cette analyse montre que la rédaction web ne repose pas uniquement sur le fond, mais sur la capacité à structurer l’information, à la formuler clairement et à la rendre immédiatement exploitable.
Dans un environnement où les contenus sont interprétés et repris, cette exigence suppose une maîtrise éditoriale, SEO et désormais orientée IA.
Les contenus générés automatiquement, lorsqu’ils ne sont pas retravaillés, peinent souvent à atteindre ce niveau de précision et de lisibilité.