Qu'est-ce que l'indexation sémantique latente ? 7 choses que vous devez savoir
Publié: 2020-03-13Vous vous demandez ce qu'est l'indexation sémantique latente ?
Il y a beaucoup de confusion autour de LSI. Et même la polémique. Dans cet article, j'explique ce que c'est, comment les moteurs de recherche l'utilisent et comment vous pouvez l'utiliser pour vous classer plus haut dans les résultats de recherche.
Mais d'abord…
1. Qu'est-ce que l'indexation sémantique latente ?
Alors, qu'est-ce que l'indexation sémantique latente exactement ?
L'indexation sémantique latente est une méthode mathématique pour trouver des modèles dans la façon dont les mots se regroupent dans le contenu en ligne. Ces informations sont ensuite indexées afin de pouvoir être utilisées pour répondre aux requêtes.
Autrement dit, l'indexation sémantique latente étudie la cooccurrence des mots. Ce faisant, il trouve les relations cachées (latentes) entre les mots, ce qui lui permet à son tour de comprendre le sens (sémantique).
L'indexation sémantique latente a été une avancée majeure pour le domaine de la compréhension de texte car elle prend en compte le fait que le sens des mots change en fonction du contexte.
Voici quelques exemples:
- Les bras se plient au coude.
- L'Allemagne vend des armes à l'Arabie saoudite.
- Trouvez la solution dans votre tête.
- Chauffer la solution à 75° Celsius.
- La clé s'est cassée dans la serrure.
- Le problème clé n'était pas un problème de qualité mais de quantité.
Au cœur de l'indexation sémantique latente se trouve une théorie appelée l' hypothèse distributionnelle . Selon cette théorie, les mots qui apparaissent dans le même contexte ont tendance à avoir des significations similaires. Comme l'a dit un linguiste : « Vous connaîtrez un mot par la compagnie qu'il garde.
En bref, les mots qui partagent des contextes similaires ont tendance à avoir des significations similaires.
« Vous saurez un mot par la compagnie qu'il garde.
JR Firth, 1957
2. Analyse des mots clés vs indexation sémantique latente
Alors, quel est le rapport avec les moteurs de recherche ?
À la fin des années 90, lorsque les premiers moteurs de recherche sont apparus, la densité des mots clés était la seule mesure de pertinence disponible. Plus un mot-clé apparaissait dans un élément de contenu, plus il était pertinent pour la requête de recherche.
Bien sûr, la densité des mots clés n'a pas réussi à comprendre le contexte. Et c'était aussi facile à manipuler. Les sites Web se classeraient en bonne place dans les résultats de recherche en remplissant leur contenu d'un mot-clé donné.
Mais lorsque l'indexation sémantique latente est apparue, le bourrage de mots-clés n'était plus efficace.
Pourquoi?
Parce qu'avec l'indexation sémantique latente, les moteurs de recherche ne recherchent pas un seul mot-clé - ils recherchent des modèles de mots-clés .
Pour le dire autrement : les moteurs de recherche s'éloignent de l'analyse des mots-clés pour se tourner vers l'autorité thématique .
3. Indexation sémantique latente et autorité topique
En identifiant des modèles dans la manière dont les mots se regroupent dans le contenu en ligne, l'indexation sémantique latente est capable d'identifier des groupes de mots qui constituent des sujets et des sous-sujets.
En effet, quel que soit le sujet sur lequel vous écrivez, les moteurs de recherche savent quel groupe de mots est associé à ce sujet ou sous-sujet . Et cela signifie que les moteurs de recherche peuvent mesurer l'autorité d'actualité d'un contenu.
Autrefois (des années 1990 à ~ 2005), vous pouviez vous classer dans les résultats de recherche en mettant l'accent sur un mot clé.
Mais pour être classé maintenant, vous devez montrer que votre contenu a une autorité d'actualité. Et cela signifie utiliser l'ensemble des mots qui ont été identifiés avec votre sujet grâce à l'indexation sémantique latente.
4. Indexation sémantique latente et autorité topique
L'autorité du sujet l'emporte sur l'autorité du domaine
L'autorité thématique devient un facteur de classement majeur pour les moteurs de recherche. Sur Google, par exemple, vous pouvez surclasser des sites Web avec une autorité de domaine beaucoup plus élevée (c'est-à-dire des sites Web avec un profil de lien beaucoup plus fort) en créant un contenu qui a une autorité thématique très élevée.
Lorsque mon autorité de domaine n'avait que 24 ans, j'avais l'habitude de surclasser régulièrement les sites Web avec DA dans les années 80 et 90 simplement en créant du contenu avec une autorité thématique élevée.
Les sites Web ont également une autorité thématique
Jusqu'à présent, j'ai parlé d'autorité d'actualité en ce qui concerne une seule page Web ou un seul article de blog.
Mais un site Web lui-même a une autorité d'actualité. Et les moteurs de recherche comme Google auront déjà une très bonne idée de l'autorité d'actualité de votre site Web.
Par exemple, si tout ce que vous écrivez concerne la musique jazz des années 1930, votre site Web aura une très haute autorité thématique sur ce sujet. Lorsque vous publiez des articles sur ce sujet, votre page Web sera très bien classée. Il est probable que vous surclassiez les sites Web avec une autorité de domaine plus élevée.
Mais si votre site Web couvre tous les genres et toutes les époques du jazz qui ont jamais existé, votre page Web sur le jazz des années 1930 ne sera probablement pas aussi élevée que l'article de l'autre site Web.
5. Indexation sémantique latente et analyse vectorielle
Nous avons beaucoup parlé d'indexation sémantique latente. Mais ce n'est pas le seul outil que les ordinateurs utilisent pour essayer de comprendre le sens des mots.

Il y a aussi une chose appelée analyse vectorielle.
Alors, qu'est-ce que l'analyse vectorielle lorsqu'elle est appliquée aux mots ?
Un vecteur de mots est une rangée de valeurs mathématiques associées à un seul mot. Chaque valeur de la ligne capture une dimension de la signification du mot.
Voici un exemple :

(La source)
Chaque nombre de la rangée tente d'encapsuler le sens du mot selon l'un des quatre vecteurs différents (animal, domestiqué, animal de compagnie, duveteux).
La différence entre l'indexation sémantique latente et les vecteurs de mots est que LSI est un modèle basé sur le nombre - il compte simplement combien de fois les mots apparaissent dans un certain contexte. Mais les vecteurs de mots sont un modèle basé sur la prédiction - ils tentent de prédire la signification d'un mot, sur la base d'une analyse vectorielle.
Par exemple, grâce à l'analyse vectorielle, l'algorithme de Google « comprend que Paris et la France sont liés de la même manière que Berlin et l'Allemagne le sont (capitale et pays), et non de la même manière que Madrid et l'Italie le sont »
6. Google utilise-t-il l'indexation sémantique latente ?
C'est là que commence la polémique...
Indexation sémantique latente comme « ancienne technologie »
Dernièrement, un certain nombre d'articles sont parus en ligne affirmant que Google n'utilise pas l'indexation sémantique latente. Certains d'entre eux vont plus loin et prétendent que comprendre le fonctionnement de LSI ne va pas aider votre référencement.
Bien sûr, personne en dehors de Google ne sait exactement ce que fait l'algorithme de Google.
Mais regardons la probabilité (ou non) que Google utilise l'indexation sémantique latente.
Certains ont fait valoir que parce que LSI a été développé dans les années 1980, il s'agit d'une "ancienne technologie" et il est donc peu probable que Google utilise LSI dans son algorithme.
Il y a un problème avec cet argument.
La date à laquelle LSI a été découvert n'a aucune importance pour savoir s'il est utilisé par Google aujourd'hui.
En effet, la date à laquelle une technologie a été découverte n'a aucune incidence sur le fait que nous l'utilisions encore aujourd'hui.

Wilhelm Conrad Roentgen, découvreur des rayons X
(La source)
Par exemple, les rayons X ont été découverts en 1895 (par Wilhelm Conrad Roentgen, professeur à l'Université de Wuerzburg en Allemagne). Donc, à proprement parler, ce sont de la « vieille technologie ».
Mais il serait absurde que les hôpitaux disent : « parce que les rayons X sont basés sur une technologie ancienne, nous ne les utiliserons plus ».
Voici un autre exemple, plus près de chez nous.

Gottfried Wilhelm Leibniz, inventeur du système binaire
(La source)
Les ordinateurs sont basés sur un système binaire, où toutes les données sont réduites à un « 0 » ou à un « 1 ».
Le système binaire a été inventé par Gottfried Wilhelm Leibniz, qui a publié son invention dans un article de 1701 intitulé : « Essay d'une nouvelle science des nombres ».
On pourrait donc soutenir que les ordinateurs modernes sont basés sur une invention du 18 e siècle.

La machine de Turing, précurseur de l'ordinateur moderne
(La source)
Certains plaident pour une origine plus récente . Ils font remonter l'ordinateur moderne à l'invention en 1936 d'Alan Turing de la «machine universelle» (maintenant appelée machine de Turing).
Quoi qu'il en soit, les ordinateurs sont basés sur une « ancienne technologie » (1701 ou 1936 selon votre point de vue).
Ainsi, le fait que le LSI ait été découvert dans les années 1980 n'est ni ici ni là – cela ne signifie pas que le LSI n'est plus pertinent ou utile.
La demande de brevet de Google en 2009
Comme je l'ai dit, Google est très prudent sur le fonctionnement de ses algorithmes.
Mais en mars 2009, Google a déposé une demande de brevet aux États-Unis (8 145 636 B1). La demande de brevet était intitulée « Classification du texte en catégories hiérarchiques ».

L'application contient ce paragraphe :
« Les techniques de classification de texte peuvent être utilisées pour classer le texte dans une ou plusieurs catégories de sujets. La classification/catégorisation de texte est un domaine de recherche en sciences de l'information qui s'intéresse à l'attribution d'un texte à une ou plusieurs catégories en fonction de son contenu. Les techniques de classification de texte typiques sont basées sur des classificateurs naïfs de Bayes, tf-idf, sémantique latente l'indexation , les machines à vecteurs de support et les réseaux de neurones artificiels, par exemple ».

Alors, Google utilise-t-il l'indexation sémantique latente ?
Nous ne savons pas avec certitude.
Mais ce serait extraordinaire si ce n'était pas le cas (et ce ne serait certainement pas parce que LSI est une « vieille technologie »).
7. Comment LSI peut-il vous aider à mieux vous classer dans Google ?
Il existe différentes manières pour LSI de vous aider à vous classer plus haut dans Google. Le plus important est simplement de réaliser que Google se concentre sur des sujets, pas sur des mots-clés.
Comme je l'ai mentionné ci-dessus, grâce à l'indexation sémantique latente, Google est capable de cartographier des sujets entiers et les sous-sujets qui composent ces sujets. Cela, à son tour, signifie que l'algorithme peut mesurer dans quelle mesure le contenu d'un article couvre un sujet particulier.
Pour le dire autrement, Google peut mesurer l'autorité d'actualité de votre contenu.
Voici quelques moyens de vous assurer que votre contenu a une autorité thématique élevée :
Faites une analyse de sujet. Regardez les cinq premiers résultats de recherche pour votre mot-clé cible et notez les sujets et sous-sujets couverts par ces pages Web. Essayez de vous assurer que votre contenu couvre plus de ces sujets et sous-sujets que tout autre élément de contenu
Créez des groupes de sujets. Rédigez un article de base qui couvre un sujet en détail. Et puis écrivez des articles « satellites » qui couvrent des sous-thèmes plus en détail.
Par exemple, vous pourriez écrire un article de base sur les avions de chasse britanniques de la Seconde Guerre mondiale. Et puis vous pourriez écrire un article satellite sur les Spitfires, un autre article sur les Hurricanes, un autre sur les Gloster Gladiators, et ainsi de suite.
Les articles satellites sur les avions de combat individuels développeront l'autorité d'actualité de votre article de base.
Utilisez la suggestion automatique de Google. Commencez à taper votre mot-clé cible dans Google et remarquez les variations à longue traîne que Google propose. Ce sont tous des sous-thèmes qui appartiennent à votre thème principal. Essayez d'inclure ces sous-thèmes en tant que titres dans votre article.
Faites de même avec les « People Also Ask » de Google (généralement un tiers en bas de la page de résultats) et les « Recherches associées » de Google (au bas de la page de résultats) – ce sont tous des sujets ou sous-sujets connexes. Incluez-les sous des titres suivis de quelques paragraphes, et vous augmenterez l'autorité d'actualité de votre article.
Google : les mots-clés LSI n'existent pas
Je ne peux pas terminer cet article sans aborder ce tweet de John Mueller de juillet 2019.
C'est ici:
Les mots-clés LSI n'existent pas -- quiconque vous dit le contraire se trompe, désolé.
– John (@JohnMu) 30 juillet 2019
Que faire de ça?
Eh bien, tout d'abord, il n'a pas dit que Google n'utilisait pas l'indexation sémantique latente. Et deuxièmement, il s'est peut-être simplement opposé à la terminologie « mots clés sémantiques latents ».
Mais existe-t-il un groupe de mots apparentés qui se regroupent selon un modèle prévisible pour le sujet sur lequel vous écrivez ? Et Google utilise-t-il ces groupes de mots pour identifier les sujets ?
Je suis prêt à parier dessus !
Conclusion
L'indexation sémantique latente est une méthode mathématique permettant de comprendre le sens des mots en étudiant les modèles de regroupement des mots dans le contenu du texte.
Bien qu'il n'y ait aucune preuve tangible que les moteurs de recherche l'utilisent, il semble plus que probable qu'ils le fassent. Les moteurs de recherche tels que Google utilisent probablement l'indexation sémantique latente pour comprendre le contexte et pour cartographier les sujets et sous-sujets.
L'autorité thématique remplace la densité des mots clés comme facteur de classement. Une compréhension de l'indexation sémantique latente vous aidera à établir une autorité thématique pour vos articles et votre site Web et à vous classer plus haut dans les résultats de recherche.
Articles Liés
- Que sont les mots-clés LSI (un moyen facile d'améliorer votre référencement)
- Que sont les clusters de sujets et pourquoi ils vont booster votre référencement
- Comment créer une structure en silo sur votre site Web (un guide illustré)
