Che cos'è l'indicizzazione semantica latente? 7 cose che devi sapere
Pubblicato: 2020-03-13Ti chiedi cos'è l'indicizzazione semantica latente?
C'è molta confusione intorno a LSI. E anche polemiche. In questo articolo spiego cos'è, come lo usano i motori di ricerca e come puoi usarlo per posizionarti più in alto nei risultati di ricerca.
Ma prima…
1. Che cos'è l'indicizzazione semantica latente?
Quindi cos'è esattamente l'indicizzazione semantica latente?
L'indicizzazione semantica latente è un metodo matematico per trovare modelli nel modo in cui le parole si raggruppano insieme nei contenuti online. Tali informazioni vengono quindi indicizzate in modo che possano essere utilizzate per rispondere alle domande.
Per dirla in altro modo, l'indicizzazione semantica latente studia la co-occorrenza delle parole. In tal modo, trova le relazioni nascoste (latenti) tra le parole che a loro volta gli consentono di comprendere il significato (semantica).
L'indicizzazione semantica latente è stato un importante passo avanti per il campo della comprensione del testo perché tiene conto del fatto che il significato delle parole cambia a seconda del contesto.
Ecco alcuni esempi:
- Le braccia si piegano al gomito.
- La Germania vende armi all'Arabia Saudita.
- Trova la soluzione nella tua testa.
- Riscaldare la soluzione a 75° Celsius.
- La chiave si è rotta nella serratura.
- Il problema chiave non era di qualità ma di quantità.
Al centro dell'indicizzazione semantica latente c'è una teoria chiamata Ipotesi distributiva . Secondo questa teoria, le parole che ricorrono nello stesso contesto tendono ad avere significati simili. Come ha detto un linguista: "Riconoscerai una parola dalla compagnia che mantiene".
In breve, le parole che condividono contesti simili tendono ad avere significati simili.
"Riconoscerai una parola dalla compagnia che mantiene."
JR Firth, 1957
2. Analisi delle parole chiave vs indicizzazione semantica latente
Quindi, come si collega questo ai motori di ricerca?
Alla fine degli anni '90, quando sono comparsi i primi motori di ricerca, la densità delle parole chiave era l'unica misura di pertinenza disponibile. Più volte una parola chiave è apparsa in un contenuto, più è stata rilevante per la query di ricerca.
Ovviamente, la densità delle parole chiave non è riuscita a comprendere il contesto. Ed era anche facile da manipolare. I siti web si classificherebbero in alto nei risultati di ricerca riempiendo il loro contenuto con una determinata parola chiave.
Ma quando l'indicizzazione semantica latente è apparsa sulla scena, il keyword stuffing non era più efficace.
Come mai?
Perché con l'indicizzazione semantica latente, i motori di ricerca non cercano una singola parola chiave, ma modelli di parole chiave .
Per dirla in altro modo: i motori di ricerca si stanno spostando dall'analisi delle parole chiave verso l'autorità per attualità .
3. Indicizzazione semantica latente e autorità topica
Identificando i modelli nel modo in cui le parole si raggruppano nei contenuti online, l'indicizzazione semantica latente è in grado di identificare i gruppi di parole che compongono argomenti e sotto-argomenti.
In effetti, qualunque sia l'argomento di cui scrivi, i motori di ricerca sanno quale gruppo di parole è associato a quell'argomento o sottoargomento . E ciò significa che i motori di ricerca possono misurare l'autorità topica di un contenuto.
Ai vecchi tempi (dagli anni '90 al ~ 2005) potevi classificare nei risultati di ricerca enfatizzando una parola chiave.
Ma per classificare ora, devi dimostrare che i tuoi contenuti hanno un'autorità topica. E questo significa usare l'intero gruppo di parole che sono state identificate con il tuo argomento attraverso l'indicizzazione semantica latente.
4. Indicizzazione semantica latente e autorità topica
L'autorità topica vince sull'autorità di dominio
L'autorità topica sta diventando un importante fattore di ranking per i motori di ricerca. Su Google, ad esempio, puoi superare i siti Web con un'autorità di dominio molto più elevata (cioè siti Web con un profilo di collegamento molto più forte) creando contenuti con un'autorità topica molto elevata.
Quando la mia autorità di dominio aveva solo 24 anni, negli anni '80 e '90 superavo regolarmente i siti Web con DA semplicemente creando contenuti con un'elevata autorità di attualità.
Anche i siti web hanno autorità topica
Finora ho parlato di autorità topica in quanto si riferisce a una singola pagina web oa un singolo post di blog.
Ma un sito web stesso ha un'autorità topica. E i motori di ricerca come Google avranno già un'ottima idea di quale sia l'autorità topica del tuo sito web.
Ad esempio, se tutto ciò di cui scrivi è musica jazz degli anni '30, il tuo sito web avrà un'autorità di attualità molto elevata su quell'argomento. Quando pubblichi articoli su quell'argomento, la tua pagina web avrà un posizionamento molto alto. È probabile che supereresti i siti Web con un'autorità di dominio più elevata.
Ma se il tuo sito web copre ogni genere ed epoca di jazz che sia mai esistita, la tua pagina web sul jazz degli anni '30 probabilmente non sarà all'altezza dell'articolo dell'altro sito web.
5. Indicizzazione semantica latente e analisi vettoriale
Abbiamo parlato molto dell'indicizzazione semantica latente. Ma non è l'unico strumento che i computer utilizzano per cercare di capire il significato delle parole.

C'è anche una cosa chiamata analisi vettoriale.
Quindi cos'è l'analisi vettoriale quando viene applicata alle parole?
Un vettore di parole è una riga di valori matematici associati a una singola parola. Ogni valore nella riga cattura una dimensione del significato della parola.
Ecco un esempio:

(Fonte)
Ogni numero nella riga tenta di incapsulare il significato della parola secondo uno dei quattro diversi vettori (animale, addomesticato, animale domestico, soffice).
La differenza tra l'indicizzazione semantica latente e i vettori di parole è che LSI è un modello basato sul conteggio: conta semplicemente quante volte le parole si verificano in un determinato contesto. Ma i vettori di parole sono un modello basato sulla previsione: tentano di prevedere il significato di una parola, sulla base dell'analisi dei vettori.
Ad esempio, attraverso l'analisi vettoriale, l'algoritmo di Google "capisce che Parigi e Francia sono correlate allo stesso modo di Berlino e Germania (capitale e paese), e non allo stesso modo di Madrid e Italia"
6. Google utilizza l'indicizzazione semantica latente?
Qui inizia la polemica...
Indicizzazione semantica latente come "vecchia tecnologia"
Ultimamente, sono apparsi online numerosi articoli che affermano che Google non utilizza l'indicizzazione semantica latente. Alcuni di loro vanno oltre e affermano che capire come funziona LSI non aiuterà il tuo SEO.
Naturalmente, nessuno al di fuori di Google sa esattamente cosa fa l'algoritmo di Google.
Ma diamo un'occhiata alla probabilità (o meno) che Google utilizzi l'indicizzazione semantica latente.
Alcuni hanno sostenuto che, poiché LSI è stato sviluppato negli anni '80, è una "vecchia tecnologia" ed è quindi improbabile che Google utilizzi LSI nel suo algoritmo.
C'è un problema con questo argomento.
La data in cui è stata scoperta LSI è irrilevante per il fatto che sia attualmente utilizzata da Google.
In effetti, la data in cui è stata scoperta una tecnologia non ha alcuna incidenza sul fatto che la usiamo ancora oggi.

Wilhelm Conrad Roentgen, scopritore dei raggi X
(Fonte)
Ad esempio, i raggi X furono scoperti nel 1895 (da Wilhelm Conrad Roentgen, professore all'Università di Wuerzburg in Germania). Quindi, in senso stretto, sono "vecchia tecnologia".
Ma sarebbe assurdo che gli ospedali dicano: “poiché i raggi X sono basati su vecchie tecnologie, non li useremo più”.
Ecco un altro esempio, più vicino a casa.

Gottfried Wilhelm Leibniz, inventore del sistema binario
(Fonte)
I computer sono basati su un sistema binario, in cui tutti i dati sono ridotti a uno "0" o a un "1".
Il sistema binario fu inventato da Gottfried Wilhelm Leibniz, che pubblicò la sua invenzione in un articolo del 1701 intitolato: "Essay d'une nouvelle science des nombres".
Quindi si potrebbe sostenere che i computer moderni siano basati su un'invenzione del 18 ° secolo.

La macchina di Turing, precursore del computer moderno
(Fonte)
Alcuni sostengono un'origine più recente . Fanno risalire il computer moderno all'invenzione di Alan Turing del 1936 della "macchina universale" (ora chiamata macchina di Turing).
Ad ogni modo, i computer si basano sulla "vecchia tecnologia" (1701 o 1936 a seconda della prospettiva).
Quindi il fatto che LSI sia stato scoperto negli anni '80 non è né qui né là – non significa che LSI non sia più rilevante o utile.
La domanda di brevetto di Google del 2009
Come ho detto, Google è molto cauto su come funzionano i suoi algoritmi.
Ma nel marzo 2009, Google ha richiesto un brevetto negli Stati Uniti (US 8.145.636 B1). La domanda di brevetto era intitolata "Classificazione del testo in categorie gerarchiche".

L'applicazione contiene questo paragrafo:
“Le tecniche di classificazione del testo possono essere utilizzate per classificare il testo in una o più categorie di argomenti. La classificazione/categorizzazione del testo è un'area di ricerca nella scienza dell'informazione che si occupa di assegnare il testo a una o più categorie in base ai suoi contenuti. Le tipiche tecniche di classificazione del testo si basano su classificatori Bayes ingenui, tf-idf, semantica latente indicizzazione , macchine vettoriali di supporto e reti neurali artificiali, per esempio”.

Quindi Google utilizza l'indicizzazione semantica latente?
Non lo sappiamo per certo.
Ma sarebbe straordinario se non lo facesse (e certamente non lo sarebbe perché LSI è "vecchia tecnologia").
7. In che modo LSI può aiutarti a posizionarti meglio in Google?
Ci sono vari modi in cui LSI può aiutarti a posizionarti più in alto in Google. La cosa più importante è semplicemente rendersi conto che Google è focalizzato sugli argomenti, non sulle parole chiave.
Come accennato in precedenza, attraverso l'indicizzazione semantica latente Google è in grado di mappare interi argomenti e i sotto-argomenti che compongono tali argomenti. Ciò, a sua volta, significa che l'algoritmo può misurare quanto bene il contenuto di un pezzo copre un particolare argomento.
Per dirla in altro modo, Google può misurare l'autorità topica del tuo contenuto.
Ecco alcuni modi per garantire che i tuoi contenuti abbiano un'elevata autorità di attualità:
Fai un po' di analisi dell'argomento. Guarda i primi cinque risultati di ricerca per la tua parola chiave principale e prendi nota degli argomenti e dei sotto-argomenti coperti da quelle pagine web. Cerca di assicurarti che i tuoi contenuti coprano più di questi argomenti e sottoargomenti rispetto a qualsiasi altro contenuto
Creare cluster di argomenti. Scrivi un articolo di base che copra un argomento in modo ampio e dettagliato. E poi scrivi articoli "satelliti" che trattano argomenti secondari in modo più dettagliato.
Ad esempio, potresti scrivere un articolo di base sugli aerei da combattimento britannici della seconda guerra mondiale. E poi potresti scrivere un articolo satellitare sugli Spitfire, un altro sugli Hurricanes, un altro sui Gloster Gladiators e così via.
Gli articoli satellite sui singoli aerei da combattimento costruiranno l'autorità topica del tuo articolo principale.
Usa il suggerimento automatico di Google. Inizia a digitare la tua parola chiave focus su Google e nota le variazioni della coda lunga che Google propone. Questi sono tutti argomenti secondari che appartengono al tuo argomento principale. Prova a includere questi argomenti secondari come titoli nel tuo articolo.
Fai lo stesso con "Le persone chiedono anche" di Google (di solito un terzo in fondo alla pagina dei risultati) e "Ricerche correlate" di Google (in fondo alla pagina dei risultati): questi sono tutti argomenti o sotto-argomenti correlati. Includili sotto i titoli seguiti da alcuni paragrafi e aumenterai l'autorevolezza del tuo articolo.
Google: non esistono parole chiave LSI
Non posso finire questo articolo senza affrontare quel tweet di John Mueller di luglio 2019.
Ecco qui:
Non esistono parole chiave LSI: chiunque ti dica il contrario si sbaglia, mi dispiace.
— John (@JohnMu) 30 luglio 2019
Cosa ne facciamo di questo?
Beh, in primo luogo, non ha detto che Google non utilizza l'indicizzazione semantica latente. E in secondo luogo, potrebbe semplicemente aver obiettato alla terminologia "parole chiave semantiche latenti".
Ma esiste un gruppo di parole correlate che si raggruppano in uno schema prevedibile per l'argomento di cui stai scrivendo? E Google usa quei gruppi di parole per identificare gli argomenti?
Sono disposto a scommetterci!
Conclusione
L'indicizzazione semantica latente è un metodo matematico per comprendere il significato delle parole studiando i modelli nel modo in cui le parole si raggruppano nel contenuto del testo.
Sebbene non ci siano prove concrete che i motori di ricerca lo utilizzino, sembra più che probabile che lo facciano. I motori di ricerca come Google probabilmente utilizzano l'indicizzazione semantica latente per comprendere il contesto e mappare argomenti e sotto-argomenti.
L'autorità topica sta sostituendo la densità delle parole chiave come fattore di ranking. Una comprensione dell'indicizzazione semantica latente ti aiuterà a creare un'autorità topica per i tuoi articoli e il tuo sito Web e a posizionarti più in alto nei risultati di ricerca.
articoli Correlati
- Cosa sono le parole chiave LSI (un modo semplice per potenziare la tua SEO)
- Cosa sono i cluster di argomenti e perché aumenteranno la tua SEO
- Come creare una struttura silo sul tuo sito web (guida illustrata)
