Ce este indexarea semantică latentă? 7 lucruri pe care trebuie să le știți
Publicat: 2020-03-13Vă întrebați ce este indexarea semantică latentă?
Există multă confuzie în jurul LSI. Și chiar controverse. În acest articol, explic ce este, cum îl folosesc motoarele de căutare și cum îl puteți folosi pentru a vă clasa mai sus în rezultatele căutării.
Dar mai intai…
1. Ce este indexarea semantică latentă?
Deci, ce este exact indexarea semantică latentă?
Indexarea semantică latentă este o metodă matematică pentru a găsi modele în modul în care cuvintele se grupează în conținutul online. Aceste informații sunt apoi indexate, astfel încât să poată fi folosite pentru a răspunde la întrebări.
Altfel spus, indexarea semantică latentă studiază co-apariția cuvintelor. Făcând asta, găsește relațiile ascunse (latente) dintre cuvinte care, la rândul lor, îi permit să înțeleagă sensul (semantica).
Indexarea semantică latentă a fost un pas major înainte pentru domeniul înțelegerii textului, deoarece ține cont de faptul că sensul cuvintelor se schimbă în funcție de context.
Aici sunt cateva exemple:
- Brațele se îndoaie la cot.
- Germania vinde arme Arabiei Saudite.
- Găsește soluția în capul tău.
- Se încălzește soluția la 75° Celsius.
- Cheia s-a spart în broască.
- Problema cheie nu a fost una de calitate, ci de cantitate.
În centrul indexării semantice latente se află o teorie numită Ipoteza distribuțională . Conform acestei teorii, cuvintele care apar în același context tind să aibă semnificații similare. Așa cum a spus un lingvist: „Veți cunoaște un cuvânt după compania pe care o ține”.
Pe scurt, cuvintele care împărtășesc contexte similare tind să aibă semnificații similare.
„Veți cunoaște un cuvânt după compania pe care o ține.”
JR Firth, 1957
2. Analiza cuvintelor cheie vs indexarea semantică latentă
Deci, cum se leagă asta cu motoarele de căutare?
La sfârșitul anilor 1990, când au apărut primele motoare de căutare, densitatea cuvintelor cheie era singura măsură a relevanței disponibilă. Cu cât un cuvânt cheie a apărut de mai multe ori într-o bucată de conținut, cu atât era mai relevant pentru interogarea de căutare.
Desigur, densitatea cuvintelor cheie nu a reușit să înțeleagă contextul. Și a fost, de asemenea, ușor de manipulat. Site-urile web s-ar clasa pe primul loc în rezultatele căutării prin umplerea conținutului lor cu un anumit cuvânt cheie.
Dar când indexarea semantică latentă a apărut pe scenă, umplerea cuvintelor cheie nu a mai fost eficientă.
De ce?
Deoarece cu indexarea semantică latentă, motoarele de căutare nu caută un singur cuvânt cheie, ci caută modele de cuvinte cheie .
Cu alte cuvinte : motoarele de căutare se îndepărtează de la analiza cuvintelor cheie spre autoritate de actualitate .
3. Indexarea semantică latentă și autoritatea topică
Prin identificarea tiparelor în modul în care cuvintele se grupează în conținutul online, indexarea semantică latentă este capabilă să identifice grupuri de cuvinte care alcătuiesc subiecte și subsubiecte.
De fapt, indiferent de subiectul despre care scrieți, motoarele de căutare știu ce grup de cuvinte este asociat cu acel subiect sau subsubiect . Și asta înseamnă că motoarele de căutare pot măsura autoritatea actuală a unui conținut.
Pe vremuri (de la 1990 la ~ 2005) puteai să te poziționezi în rezultatele căutării punând accent pe un cuvânt cheie.
Dar pentru a te clasa acum, trebuie să arăți că conținutul tău are autoritate de actualitate. Și asta înseamnă să folosiți întregul grup de cuvinte care au fost identificate cu subiectul dvs. prin indexare semantică latentă.
4. Indexarea semantică latentă și autoritatea topică
Autoritatea de actualitate domină autoritatea de domeniu
Autoritatea de actualitate devine un factor major de clasare pentru motoarele de căutare. Pe Google, de exemplu, puteți depăși site-urile web cu autoritate de domeniu mult mai mare (adică site-uri web cu un profil de link mult mai puternic) prin crearea de conținut care are o autoritate subiectică foarte mare.
Când autoritatea mea de domeniu avea doar 24 de ani, obișnuiam să depășesc în mod regulat site-urile web cu DA în anii 80 și 90, pur și simplu prin crearea de conținut cu o autoritate de actualitate ridicată.
Site-urile web au, de asemenea, autoritate de actualitate
Până acum, am vorbit despre autoritatea actuală, deoarece se referă la o singură pagină web sau o singură postare de blog.
Dar un site web în sine are autoritate de actualitate. Iar motoarele de căutare precum Google vor avea deja o idee foarte bună despre autoritatea actuală a site-ului dvs.
De exemplu, dacă tot ce scrieți despre muzică jazz din anii 1930, site-ul dvs. web va avea o autoritate foarte mare în subiectul respectiv. Când publicați articole pe acest subiect, pagina dvs. web va avea o poziție foarte bună. Este probabil să depășiți site-urile web cu autoritate de domeniu mai mare.
Dar dacă site-ul dvs. acoperă fiecare gen și epocă de jazz care a existat vreodată, pagina dvs. web despre jazzul anilor 1930 probabil nu se va clasa la fel de sus ca articolul celuilalt site web.

5. Indexarea semantică latentă și analiza vectorială
Am vorbit mult despre indexarea semantică latentă. Dar nu este singurul instrument pe care îl folosesc computerele pentru a încerca să înțeleagă sensul cuvintelor.
Există și un lucru numit analiză vectorială.
Deci, ce este analiza vectorială atunci când este aplicată cuvintelor?
Un vector de cuvinte este un rând de valori matematice asociate unui singur cuvânt. Fiecare valoare din rând surprinde o dimensiune a sensului cuvântului.
Iată un exemplu:

(Sursă)
Fiecare număr din rând încearcă să încapsuleze sensul cuvântului conform unuia dintre cei patru vectori diferiți (animal, domesticit, animal de companie, pufos).
Diferența dintre indexarea semantică latentă și vectorii de cuvinte este că LSI este un model bazat pe numărare - pur și simplu numără de câte ori apar cuvinte într-un anumit context. Dar vectorii de cuvinte sunt un model bazat pe predicții – ei încearcă să prezică semnificația unui cuvânt, pe baza analizei vectoriale.
De exemplu, prin analiza vectorială, algoritmul Google „înțelege că Parisul și Franța sunt legate la fel cum sunt Berlinul și Germania (capitala și țara), și nu la fel cum sunt Madrid și Italia”
6. Utilizează Google indexarea semantică latentă?
Aici începe controversa...
Indexarea semantică latentă ca „tehnologie veche”
În ultimul timp, online au apărut o serie de articole care susțin că Google nu folosește indexarea semantică latentă. Unii dintre ei merg mai departe și susțin că înțelegerea modului în care funcționează LSI nu va ajuta SEO.
Desigur, nimeni din afara Google nu știe exact ce face algoritmul Google.
Dar să ne uităm la probabilitatea (sau altfel) ca Google să folosească indexarea semantică latentă.
Unii au susținut că, deoarece LSI a fost dezvoltat în anii 1980, este „tehnologie veche” și, prin urmare, este puțin probabil ca Google să folosească LSI în algoritmul său.
Există o problemă cu acest argument.
Data la care a fost descoperit LSI este irelevantă pentru a fi utilizată de Google astăzi.
Într-adevăr, data la care a fost descoperită orice tehnologie nu are nicio legătură cu dacă o folosim și astăzi.

Wilhelm Conrad Roentgen, descoperitorul razelor X
(Sursă)
De exemplu, razele X au fost descoperite în 1895 (de Wilhelm Conrad Roentgen, profesor la Universitatea Wuerzburg din Germania). Deci, strict vorbind, sunt „tehnologie veche”.
Dar ar fi absurd ca spitalele să spună: „pentru că razele X se bazează pe tehnologie veche, nu le vom mai folosi”.
Iată un alt exemplu, mai aproape de casă.

Gottfried Wilhelm Leibniz, inventatorul sistemului binar
(Sursă)
Calculatoarele se bazează pe un sistem binar, în care toate datele sunt reduse la un „0” sau un „1”.
Sistemul binar a fost inventat de Gottfried Wilhelm Leibniz, care și-a publicat invenția într-o lucrare din 1701 intitulată: „Essay d’une nouvelle science des nombres”.
Deci ai putea argumenta că computerele moderne se bazează pe o invenție din secolul al XVIII- lea.

Mașina Turing, precursorul computerului modern
(Sursă)
Unii oameni pledează pentru o origine mai recentă . Ei urmăresc computerul modern până la invenția lui Alan Turing din 1936 a „mașinii universale” (numită acum mașina Turing).
În orice caz, computerele se bazează pe „tehnologia veche” (1701 sau 1936, în funcție de perspectiva dvs.).
Deci faptul că LSI a fost descoperit în anii 1980 nu este nici aici, nici acolo – nu înseamnă că LSI nu mai este relevant sau util.
Cererea de brevet Google 2009
După cum am spus, Google este foarte înțelept cu privire la modul în care funcționează algoritmii.
Dar în martie 2009, Google a solicitat un brevet în SUA (US 8.145.636 B1). Cererea de brevet a fost intitulată „Clasificarea textului în categorii ierarhice”.

Aplicația conține acest paragraf:
„Tehnicile de clasificare a textului pot fi folosite pentru a clasifica textul în una sau mai multe categorii de subiecte. Clasificarea/categorizarea textului este o zonă de cercetare în știința informației care se preocupă de atribuirea textului uneia sau mai multor categorii pe baza conținutului său. Tehnicile tipice de clasificare a textului se bazează pe clasificatori Bayes naivi, tf-idf, semantică latentă indexare , mașini vector de suport și rețele neuronale artificiale, de exemplu”.

Deci folosește Google indexarea semantică latentă?
Nu știm sigur.
Dar ar fi extraordinar dacă nu ar fi (și cu siguranță nu ar fi pentru că LSI este „tehnologie veche”).
7. Cum vă poate ajuta LSI să vă clasați mai bine în Google?
Există diferite moduri prin care LSI vă poate ajuta să vă poziționați mai sus în Google. Cel mai important este pur și simplu să realizezi că Google se concentrează pe subiecte, nu pe cuvinte cheie.
După cum am menționat mai sus, prin indexarea semantică latentă, Google este capabil să elaboreze subiecte întregi și subsubiectele care alcătuiesc acele subiecte. Aceasta, la rândul său, înseamnă că algoritmul poate măsura cât de bine conținutul unei piese acoperă un anumit subiect.
Altfel spus, Google poate măsura autoritatea actuală a conținutului dvs.
Iată câteva modalități de a vă asigura că conținutul dvs. are o autoritate mare în materie de actualitate:
Faceți niște analize de subiect. Priviți primele cinci rezultate ale căutării pentru cuvântul cheie focalizat și notați subiectele și subsubiectele pe care le acoperă acele pagini web. Încercați să vă asigurați că conținutul dvs. acoperă mai multe dintre aceste subiecte și subiecte decât orice alt conținut
Creați grupuri de subiecte. Scrieți un articol de bază care să acopere un subiect în detaliu. Și apoi scrieți articole „satelit” care acoperă sub-subiecte mai detaliat.
De exemplu, ați putea scrie un articol de bază despre avioanele de luptă britanice din al Doilea Război Mondial. Și apoi ai putea scrie un articol satelit despre Spitfires, un alt articol despre uragane, altul despre Gloster Gladiators și așa mai departe.
Articolele satelit despre avioanele de luptă individuale vor construi autoritatea de actualitate a articolului dvs. de bază.
Utilizați Google Auto Suggest. Începeți să introduceți cuvântul cheie de focalizare în Google și observați variațiile cu coada lungă pe care le vine Google. Toate acestea sunt sub-subiecte care aparțin subiectului dvs. principal. Încercați să includeți acele sub-subiecte ca titluri în articolul dvs.
Faceți același lucru cu „People Also Ask” de la Google (de obicei, o treime în jos pe pagina de rezultate) și cu „Căutări similare” de la Google (la subsolul paginii cu rezultate) – toate acestea sunt subiecte sau subteme conexe. Includeți-le sub titluri, urmate de câteva paragrafe și veți spori autoritatea de actualitate a articolului dvs.
Google: Nu există așa ceva ca cuvintele cheie LSI
Nu pot termina acest articol fără să abordez acel tweet al lui John Mueller din iulie 2019.
Iată-l:
Nu există cuvinte cheie LSI -- oricine vă spune altceva se înșală, îmi pare rău.
— John (@JohnMu) 30 iulie 2019
Ce să faci din asta?
Ei bine, în primul rând, el nu a spus că Google nu folosește indexarea semantică latentă. Și în al doilea rând, s-ar putea să fi obiectat pur și simplu la terminologia „cuvinte cheie semantice latente”.
Dar există un grup de cuvinte înrudite care se grupează într-un model previzibil pentru subiectul despre care scrii? Și folosește Google acele grupuri de cuvinte pentru a identifica subiectele?
Sunt dispus să pariez pe asta!
Concluzie
Indexarea semantică latentă este o metodă matematică de înțelegere a sensului cuvintelor prin studierea tiparelor în modul în care cuvintele se grupează în conținutul textului.
Deși nu există dovezi concrete că motoarele de căutare îl folosesc, pare mai mult decât probabil să o facă. Motoarele de căutare precum Google folosesc probabil indexarea semantică latentă pentru a înțelege contextul și pentru a identifica subiecte și subsubiecte.
Autoritatea de actualitate înlocuiește densitatea cuvintelor cheie ca factor de clasare. O înțelegere a indexării semantice latente vă va ajuta să construiți autoritate de actualitate pentru articolele dvs. și site-ul dvs. și să vă poziționați mai sus în rezultatele căutării.
Articole similare
- Ce sunt cuvintele cheie LSI (mod ușor de a vă îmbunătăți SEO)
- Ce sunt clusterele de subiecte și de ce vă vor îmbunătăți SEO
- Cum să creați o structură de siloz pe site-ul dvs. (un ghid ilustrat)
