Comprendre les entités nommées pour mieux parler aux moteurs de recherche et de réponses

Par Christophe BENOIT, le 30 mai 2025

Améliorer la compréhension de ses contenus Internet en facilitant la tâche des robots des modèles de langage et des outils de recherche est possible en utilisant les entités. Elles permettent aux algorithmes modernes de sortir d’une lecture purement textuelle et d’atteindre une véritable compréhension sémantique.

Les LLMs et moteurs de recherche sont sensibles aux données structurées
Comprendre les entités pour mieux parler aux moteurs de recherche et aux LLMs

Les modèles classiques de recherche d’information, fondés sur la correspondance de mots-clés, présentent une limite importante : ils ne peuvent pas identifier des documents pertinents si ceux-ci n’emploient pas exactement les mêmes termes que ceux de la requête. Pour surmonter cette difficulté, les moteurs de recherches s’appuient sur des outils supplémentaires afin de représenter à un niveau plus abstrait le sens des requêtes et des documents. L’objectif est de rapprocher des contenus sémantiquement liés, même s’ils utilisent des mots différents.

Parce qu’Internet déborde de contenus et que peu sont vraiment utiles, clairs et compréhensibles, une des actions pour être le bien vu dans les moteurs de réponses (type ChatGPT) et dans les réponses IA des moteurs de recherche est la mise en œuvre d’entités nommées. Surcouche au SEO classique parfois appelé SEO sémantique, le travail sur les entités permet de structurer l’information pour qu’elle soit intelligible, non seulement par les humains, mais aussi par les machines.

Cet article introductif vise à expliquer ce qu’est une entité, pourquoi elle est si précieuse pour le SEO et comment elle alimente le fonctionnement des IA modernes. D’autres articles plus techniques suivront.

Ce qu’est une entité

Une entité est une abstraction sémantique : c’est une représentation abstraite d’un objet réel ou conceptuel, conçue pour être comprise et traitée par les humains comme par les machines, caractérisée par des attributs et des relations, et identifiable dans un système de connaissances.

Une personne, une entreprise, une ville, un concept peuvent être des entités. Par exemple, « Apple » peut désigner l’entreprise technologique ou le fruit. Autre exemple : « Jaguar » peut représenter l’animal ou la marque de voiture.

Dans les SERPs, les entités les plus fréquentes sont liées aux lieux, personnes, sujets (chose, idées, concepts) et entreprises.

Le rôle d’une entité est de donner un référent unique à un mot ou une expression, au-delà de la simple chaîne de caractères. Ce n’est donc pas simplement un mot-clé.

Une entité a une existence propre dans un catalogue d’entités. Elle est désambiguïsée, contextuelle, et connectée à d’autres entités. Cela permet aux moteurs et aux LLMs de comprendre ce dont il est question dans un texte, et de le relier à d’autres contenus pertinents.

Du texte libre aux bases de connaissances : comment les entités prennent vie

API Google pour détecter les entités
Google propose un outil pour identifier les entités (entre autres) au sein d’un texte

Pour que les moteurs puissent utiliser ces entités, encore faut-il qu’elles soient formalisées dans des structures de données adaptées. Le texte libre est difficile à interpréter pour une machine. Sur le web, beaucoup de données sont non structurées. Wikipédia propose des données semi-structurées et certains contenus sont bien structurés (Wikidata ou les blocs en JSON de Schema.org).

Les entités permettent de combler le fossé entre le monde des données non structurées et celui des données structurées. Elles peuvent être utilisées pour enrichir sémantiquement un texte non structuré, tandis que les sources textuelles peuvent être utilisées pour alimenter des bases de connaissances structurées.

En juillet 2010, Google a acheté Freebase pour se rendre compte ensuite que Wikidata était une meilleure solution. Google a donc essayé de fusionner les deux. Désormais outillé pour travailler avec des entités Google devait encore construire sa connaissance des entités pour les données non structurées (les blogs par exemple). Google s’est alors associé à Bing et Yahoo. Ensemble, ils ont créé Schema.org pour accomplir cette tâche.

Pour injecter de la sémantique dans des données, on peut s’appuyer sur des bases de données structurées ouvertes que sont Wikidata, Wikipedia, DBpedia, Yago ainsi que sur les graphes de connaissances propriétaires comme ceux de Google ou Microsoft (les fameux knowledge graphs). En plus d’être enrichi avec les bases partagées citées plus haut, Microsoft Knowledge Graph utilise par exemple ses données propriétaires issues du LinkedIn Graph. Google fait de même avec ses données propriétaires extraites de Google Maps et des Google Business Profiles, ainsi que des données de Google Books entre autres.

Ces bases de connaissances donnent une « carte d’identité » aux entités, avec un identifiant unique, des relations, des attributs. Ainsi, « Paris », la capitale de la France, a un ID unique, des coordonnées géographiques, une population, etc. Mais « Paris », c’est aussi le nom d’au moins 5 villes aux États-Unis d’Amérique de même que le prénom de « Paris Hilton ». Chaque entité à son propre identifiant. Et ces différentes entités ne sont pas forcément présentes dans les mêmes bases de connaissances.

Détecter une entité dans un texte ne suffit pas. Encore faut-il savoir qu’il s’agit bien d’elle. On passe alors au concept suivant.

Reconnaître, lier, comprendre : les fondements du traitement sémantique

Les technologies de traitement du langage naturel utilisent plusieurs étapes :

  • Reconnaissance d’entités nommées (NER – Named Entity Recognition) : repérer les mentions d’entités au sein d’un texte ;
  • Liaison d’entités (EL – Entity Linking) : associer ces mentions à une entité précise dans une base de connaissances – très utile dans un processus de désambiguïsation.

Par exemple, si un texte parle de « Jordan », il peut s’agir d’un pays, d’un prénom ou de la marque Nike Jordan. Le contexte et les relations présentes dans le texte (ou dans la base de connaissances) permettent de faire le bon lien.

Pour renforcer ce processus, il faut structurer les types d’entités et leurs relations. C’est le rôle des ontologies.

L’ontologie : la structure qui donne sens aux entités

Une ontologie est un schéma conceptuel qui définit les types d’entités, leurs propriétés et leurs relations. Elle donne du sens aux données. On peut faire le parallèle avec la grammaire. Les données seules n’ont pas de sens sans structure, tout comme une suite de mots n’a pas de sens sans grammaire. Ainsi, l’ontologie ne stocke pas les faits, mais organise et valide leur structure et leur sens : c’est le cadre conceptuel, le modèle qui permet une interprétation correcte et cohérente, comme la grammaire le fait pour une phrase.

L’ontologie fournit la structure conceptuelle :

  • Elle définit ce qu’est une entité (ex : Person, Place, Organization), ses propriétés (birthPlace, founder, etc.), ses contraintes (domaines, cardinalité, etc.). Sans ontologie, la base de connaissances serait une simple liste de chaînes de caractères ou d’identifiants ;
  • La tâche de liaison d’entités repose sur une ontologie pour donner du sens : Lorsque l’on détecte « Apple », l’ontologie permet de distinguer si c’est une entreprise ou un fruit selon le contexte, grâce à la structure sémantique sous-jacente. Elle permet de désambigüiser les entités détectées à partir des types et relations connues. Si « Steve Jobs » est mentionné, cela renforce la probabilité que « Apple » représente l’entreprise technologique et non la pomme ;
  • L’ontologie permet l’inférence : Grâce aux relations (exemple : isCapitalOf, hasAuthor), on peut enrichir les résultats de la liaison d’entités par des inférences logiques mais aussi faire des déductions et vérifier la cohérence. Exemple : si une entité est liée à « Paris » et qu’on sait que « Paris » est une ville en France, on peut inférer d’autres propriétés à cette entité ;
  • Elle structure la représentation sémantique dans des graphes RDF : Les bases comme DBpedia ou Wikidata utilisent des ontologies pour représenter les entités en triplets RDF : Sujet – Prédicat – Objet.

Ces structures s’intègrent dans des systèmes plus larges : les bases de connaissances.

Des bases de données au savoir : bases de connaissances et graphes de connaissances

Une base de connaissances est un ensemble de faits structurés alimentée par une ontologie. Lorsque l’accent est mis sur les relations entre les entités, une base de connaissances est souvent appelée graphe de connaissances (knowledge graph).

C’est une structure de données qui relie des entités entre elles par des relations sémantiques. L’idée, c’est de transformer de la donnée en connaissance.

Chaque nœud représente une entité, chaque arête une relation. Pour connecter les entités entre elles, on utilise des prédicats qui définissent la relation entre les 2 entités. Les prédicats ajoutent du contexte, ce qui permet au graphique de fournir des informations riches et relationnelles. Enfin, chaque nœud, arête et prédicat peut également avoir des propriétés (ou attributs) qui ajoutent du contexte supplémentaire. Enfin, l’ensemble est dynamique et évolue avec le temps. Par exemple :

"Sam Altman" → dirige → "OpenAI" → est une → "Entreprise"
"Sam Altman" → habite → "San Francisco" → qui est situé en → "Californie"

La structuration de l’information en base de connaissance permet :

  • Parcours de graphe (Graph Traversal) : en naviguant dans les faits existants (données explicites) afin de répondre à des requêtes structurées, trouver des chemins de connaissance et explorer les relations entre entités.
  • Inférence sémantique : en découvrant des faits implicites, en s’appuyant sur la structure sémantique du graphe.

Pour reprendre l’exemple ci-dessus, il est désormais possible de savoir que le dirigeant d’OpenAI habite en Californie.

Les moteurs de recherche utilisent ce type de graphe pour enrichir les résultats (panneaux de connaissance, suggestions, réponses directes). En SEO, comprendre ces mécanismes permet de mieux optimiser ses contenus pour les moteurs de demain.

Penser son contenu comme une base de connaissances

représentation graphique de données structurées
Visualisation des liens entre données Schema.org d’une page web

Construire une base de connaissances complète à partir de zéro est une tâche colossale. Tout comme Google ou Microsoft, on peut exploiter des sources de connaissances existantes qui proposent déjà des catégories et des attributs bien structurés . Ainsi, on gagne du temps et on construit sur un socle déjà éprouvé.

Il ne s’agit plus seulement de produire un bon article, mais de penser chaque contenu comme une brique d’un graphe de connaissances. Cette logique sémantique améliore à la fois le SEO, l’expérience utilisateur et l’exploitation par des IA.

Alors ça signifie qu’il faut :

  • Utiliser des entités reconnaissables ;
  • Renforcer leur contexte ;
  • Créer des connexions internes et externes ;
  • Structurer les données (Schema.org, JSON-LD, données tabulaires…).

C’est à ce stade qu’intervient le modèle EAV (Entity-Attribute-Value). Schema.org permet d’ajouter de nombreuses métadonnées standardisées aux contenus web, mais il peut arriver que l’on souhaite structurer des informations supplémentaires, spécifiques à un domaine ou non prévues dans les vocabulaires existants.

Le modèle EAV offre une solution flexible pour représenter les données liées aux entités, en permettant de stocker dynamiquement des paires attribut-valeur sans avoir à prédéfinir une structure rigide. Typiquement, en SEO.

Entités et SEO : une nouvelle façon d’optimiser

Le SEO traditionnel se concentrait sur les mots-clés. Le SEO sémantique, lui, vise à faire comprendre aux moteurs de quoi parle votre contenu en profondeur. Cela passe par :

  • L’usage (la récupération et l’alimentation) d’entités connues (citées dans Wikidata, etc.) ;
  • Le balisage sémantique via Schema.org. C’est l’un des meilleurs moyens pour désambiguïser les contenus. Lorsque Google lit un contenu augmenté avec des données Schema.org, il sait quelle base de données structurée associer au texte, et il dispose de synonymes et de versions alternatives d’un mot lié à l’entité. Lorsqu’on optimise avec Schema.org, on optimise pour la reconnaissance d’entités nommées ;
  • Des liens internes qui renforcent les connexions contextuelles et qui accompagne le cheminement de l’utilisateur. Ils n’agissent pas au même plan que les entités nommées mais ont des passerelles et parfois des objectifs communs : lier des pages / sujets, découvrir de nouvelles relations, progresser dans un suite logique (coucou le cocon sémantique) ;
  • Une structuration logique du contenu (titres, paragraphes, saillance). La saillance d’une entité (entity salience) c’est l’importance et la centralité d’une entité par rapport à un contenu. Utiliser des termes forts, des entités nommées et leurs variations dans les éléments clés (title, Hx, intro…) renforce la saillance et cela indique de façon très forte aux robots quels sont les termes centraux et que le sujet est bien identifié ;
  • Un soin particulier à la désambiguïsation qui passe par l’importance des entités et des mentions, une similitude contextuelle entre le texte entourant la mention et l’entité candidate et une cohérence entre toutes les décisions de liaison d’entité dans le document. On croise parfois le terme associé de monosémanticité : c’est l’idée qu’un mot, une phrase, un concept n’a qu’un seul sens dans un contexte donné et que notre contenu y répond parfaitement.
  • Une optimisation multimédia : les éléments multimédias (images…) permettent de renforcer la pertinence tout simplement parce que les outils modernes de recherche d’information sont multimodaux. Pour renforcer notre impact, clarifier et densifier, il ne faut donc pas oublier les éléments multimédias.

Bonus : les moteurs ne sont pas les seuls à bénéficier de cette structuration. Les LLMs aussi exploitent les entités.

Entités et LLMs : le langage naturel structuré

Les modèles de langage sont entraînés à prédire du texte, mais ils s’appuient de plus en plus sur des représentations sémantiques profondes.

Les entités permettent aux LLMs d’éviter les ambiguïtés, de générer des réponses plus cohérentes et de faire des liens entre différents domaines de connaissance.

Un contenu bien structuré, avec des entités identifiables, aide les LLMs à produire des résumés, à répondre à des questions, à extraire de l’information. Cela implique une nouvelle manière de penser la rédaction.

Et encore plus concrètement ?

Maîtriser cette nouvelle façon de produire et améliorer les contenus permet de rester dans la course à la visibilité face à des technos actuelles qui ont toujours besoin qu’on les accompagne. Pour les référenceurs, c’est un nouveau terrain de jeu dont il faut s’emparer avec son vocabulaire, ses bonnes pratiques et ses outils. Le chantier est passionnant surtout lorsqu’on sait qu’on peut aller beaucoup plus loin que Schema.org.

Dans les prochains articles, nous verrons comment identifier, structurer et exploiter concrètement les entités dans ses contenus. Car si l’avenir est sémantique, il commence dès maintenant.

Christophe BENOIT

Christophe BENOIT

Fondateur de Tyseo, marketeur en T, couteau suisse digital

Développeur & chef de projet de formation, je pratique le marketing digital auprès des PME depuis 1999. J’ai historiquement fait beaucoup de SEO et ai vu les différentes évolutions du secteur. Les fondamentaux, eux, n’ont pas vraiment changé et le travail de fond paie toujours plus sur le long terme.

Sollicitez un second avis

Vous souhaitez un conseil avisé et indépendant pour vos actions de référencement naturel ? Organisons un premier échange, c’est sans engagement.

Le SEO vous intéresse ? Poursuivez votre lecture

Que faire des anciens contenus ?

Auditez régulièrement vos contenus. Actualisez ce qui est pertinent, supprimez et redirigez l’obsolète pour maintenir des contenus de haute qualité qui plairont aux utilisateurs.