L’émergence des intelligences artificielles génératives et des grands modèles de langage (LLMs) révolutionne la recherche d’information. Dans ce nouveau paradigme où les données sont de plus en plus vectorisées, comment s’assurer que votre contenu est non seulement trouvé, mais aussi compris en profondeur par ces systèmes ? La réponse réside notamment dans les entités nommées et les données structurées, et plus spécifiquement dans l’adoption du vocabulaire Schema.org.
L’objectif de Schema.org est de créer un vocabulaire commun pour baliser les informations sur le web, permettant aux moteurs de recherche et aux LLMs / moteurs de réponses de mieux comprendre le contenu des pages. La bonne approche n’est pas de baliser tout, mais de baliser avec précision ce qui est significatif et utile dans le contenu proposé à l’utilisateur, sans négliger ni vouloir remplacer le contenu brut qui doit rester de haute qualité et riche en informations.
Cet article fait partie d’une série : le premier article présentant les entités nommées et l’impact sur le SEO et la visibilité sur les LLMs est accessible ici.
Types et propriétés Schema.org
Pour débuter dans l’univers de Schema.org, on peut se concentrer sur les types et propriétés les plus fondamentaux et impactants pour les LLMs et les moteurs de recherche. Parmi toutes les possibilités de Schema.org (voir tous les types), commençons simplement.
Types
- Person : Permet d’identifier des individus, leurs rôles, leurs affiliations, leurs coordonnées, etc. Utile pour les biographies, les recherches de contact et la construction de profils d’individus dans les graphes de connaissance. À utiliser pour les auteurs, les personnes clés et les dirigeants.
- Place : Permet de spécifier des lieux physiques, des adresses, des coordonnées géographiques. Choix naturel pour les recherches locales et la contextualisation géographique des informations.
- Organization + LocalBusiness : Permet de distinguer les entités organisationnelles (Organization) des entreprises locales (LocalBusiness). Renseigne sur les horaires d’ouverture, les services, les coordonnées, les avis clients, la structure organisationnelle.
- Product : Incontournable en ecommerce et pour les sites exposant des catalogues. En le renseignant de manière exhaustive (prix, stock, avis), vous optimisez la visibilité de vos articles et facilitez leur comparaison.
- Brand : Permet de lier produits et marque, comprendre les relations entre différentes entités. À faire pour développer une marque et sa notoriété.
- Intangible : Permet de faire ressortir des concepts, des idées.
- Audience : Permet de spécifier à qui le contenu est destiné, ce qui prend tout son sens pour les systèmes de recommandation et le ciblage sémantique.
- Language : Permet de spécifier la langue d’un contenu ou d’une audience.
Propriétés
Propriétés génériques :
- image : Fournit une URL vers une image représentative de l’entité, enrichissant la présentation visuelle dans les résultats.
- description : C’est un résumé rapide et précis de l’entité utilisables pour les extraits affichés par les moteurs et pour une compréhension rapide par les LLMs.
- url : Permet aux moteurs de recherche de bien indexer la bonne URL et aux LLMs de pointer vers la bonne source d’information.
Propriétés « spéciales » ou Propriétés de Relation et d’Identité :
- mentions : Indique qu’une entité fait référence à une autre. Utile pour délimiter les relations implicites et enrichir le graphe de connaissance.
- sameAs : Permet de lier une entité à sa représentation équivalente sur d’autres plateformes. Elle permet aux moteurs et aux LLMs de fusionner les informations et de raccrocher votre entité à des faits déjà connus.
- knowsAbout : Permet de spécifier les domaines d’expertise ou de connaissance d’une personne ou d’une organisation et d’identifier les sources d’information fiables sur un sujet donné.
- @id : L’identifiant unique de votre entité dans le graphe. Souvent une URL, @id facilite le référencement et la liaison des entités sans avoir à dupliquer leurs propriétés. C’est un pilier technique pour la construction d’un graphe de connaissance cohérent et performant. Il permet de gagner du temps en évitant de devoir répéter tout répéter sur chaque page.
Cette liste est un point de départ. Suivant les contextes, on ajoutera ou supprimera des éléments. Bien identifier la nature de l’information à baliser et l’objectif principal de cette démarche déterminera la pertinence spécifique de chaque élément.
Limites du balisage Schema.org
Malgré ses nombreux atouts, Schema.org n’est pas une solution miracle et comporte des limites à comprendre pour une implémentation réussie :
- L’utilisation excessive ou inappropriée de balisages Schema.org peut être contre-productive. On doit se limiter et utiliser uniquement ce dont on a vraiment besoin ;
- Baliser des informations non visibles à l’utilisateur est sanctionné. On balise que l’information que l’utilisateur facilement découvrable par l’utilisateur ;
- Le balisage est là pour renforcer et désambiguïser. Il est facile de mal interpréter un type ou une propriété et de générer un balisage erroné. Ce qui est pire que pas de balisage du tout. La valeur de Schema.org réside dans son implémentation correcte et pertinente : faire de l’à-peu-près est risqué ;
- Est-ce rentable ? Pas toujours. Il faut y aller progressivement et renforcer seulement si les effets sont positifs ;
- Schema.org évolue, mais surtout, le contenu des sites évolue. Serez-vous capable d’avoir toujours un balisage Schema.org aligné avec le contenu du site ?
- Schema.org ne valide pas la véracité de l’information. Si les données que vous balisez sont fausses ou trompeuses, Schema.org ne fera que propager cette fausse information de manière plus efficace.
- Le texte d’une page web contient toujours une richesse d’information, de nuances, de sentiments et de relations implicites que Schema.org ne peut pas encapsuler. Il faut garder le balisage Schema.org pour ce qu’il est : un coup de pouce qui vient enrichir et préciser un contenu déjà de haute qualité et informatif. Il ne le remplace en aucun cas.
Mettre en œuvre le balisage page par page
Pour les petits sites, le chantier peut se faire à la main. Dès qu’on dépasse les 50 pages, le projet nécessite une brique d’automatisation. Voici une démarche structurée pour aborder ce chantier :
- Collecte de toutes les URLs : Récupérer les URL à partir d’un flux Google Merchant Center + sitemap.xml. Dédupliquer. Sélection des URLs à travailler ;
- Extraction des contenus (Hx, Title…), des données structurées (JSON-LD et même RDFa + microdonnées) et reconnaissance d’entités ;
- Recherche et scrap Google pour le H1 et jusqu’à deux entités nommées clés par URL. Collecter les 10 premiers résultats de recherche ;
- Recherche et scrap ChatGPT et outils similaires pour le H1 et jusqu’à deux entités nommées clés par URL. Collecter les 10 premières réponses ;
- Faire l’extraction (étape 2) pour les concurrents trouvés aux étapes 3 et 4 ;
- Vérification de l’existence des entités découvertes dans les bases de connaissances externes faisant autorité (Wikipedia, Wikidata ou le Knowledge Graph de Google…) ;
- Synthèse des informations trouvées. Comparaison des entités et données structurées implémentées. Prise de décision des actions à mener sur les contenus, entités nommées, données structurées et graphe de connaissance.
- Mise en œuvre des modifications. Modification des contenus et entités nommées et génération de données structurées Schema.org au format JSON-LD.
- Passage au validateur Schema.org ;
- Mesure des répercussions dans les jours et semaines qui viennent.
Les étapes 2, 3 et 4 peuvent nécessiter des outils. Il existe des APIs et des bibliothèques pour scrapper, interroger et déduire les informations que nous souhaitons collecter. L’étape 6 nécessite un contrôle par un humain. Et l’étape 7, même si elle peut être pré-mâchée par des outils, n’empêche pas de se servir de son cerveau.
Conseils de mise en œuvre
- Priorisez la simplicité et l’incrémental. Commencer simple et complexifier progressivement ;
- L’efficacité plutôt que l’exhaustivité. Faire juste et limité (mais mieux que la concurrence) est souvent plus rentable que de tout vouloir modéliser. Il faut savoir s’arrêter lorsque les bénéfices ne justifient plus les investissements engagés ;
- Qualité et actualité. Vérifier que le balisage est correctement formaté et suivre les mises à jour de Schema.org : il y a régulièrement des ajouts, modifications et passage en dépréciés…
En fournissant aux moteurs de recherche et aux systèmes d’IA des données claires et structurées, vous ne vous contentez pas d’améliorer votre visibilité ; vous permettez à votre contenu d’être véritablement compris, interprété et utilisé dans des contextes de recherche toujours plus complexes. Adoptez une démarche pragmatique, ciblez la pertinence et implémentez juste. C’est la voie pour une meilleure interaction avec les outils modernes.