O que é indexação semântica latente? 7 coisas que você precisa saber

Publicados: 2020-03-13

Quer saber o que é indexação semântica latente?

Há muita confusão em torno do LSI. E até polêmica. Neste artigo, explico o que é, como os mecanismos de pesquisa o usam e como você pode usá-lo para obter uma classificação mais elevada nos resultados da pesquisa.

Mas primeiro…

what is latent semantic indexing
Índice
1. O que é indexação semântica latente?
2. Análise de palavras-chave vs indexação semântica latente
3. Indexação Semântica Latente e Autoridade Tópica
4. Indexação semântica latente e autoridade tópica
Autoridade tópica supera autoridade de domínio
Os sites também têm autoridade por assunto
5. Indexação semântica latente e análise vetorial
6. O Google usa indexação semântica latente?
Indexação semântica latente como 'tecnologia antiga'
Pedido de patente de 2009 do Google
7. Como a LSI pode ajudá-lo a se classificar melhor no Google?
Google: Palavras-chave LSI não existem
Conclusão
Artigos relacionados

1. O que é indexação semântica latente?

Então, o que exatamente é indexação semântica latente?

A Indexação semântica latente é um método matemático para encontrar padrões na forma como as palavras se agrupam no conteúdo online. Essas informações são então indexadas para que possam ser usadas para responder a consultas.

Em outras palavras, a indexação semântica latente estuda a coocorrência de palavras. Ao fazer isso, ele encontra as relações ocultas (latentes) entre as palavras que, por sua vez, permitem compreender o significado (semântica).

A indexação semântica latente foi um grande avanço para o campo da compreensão de textos porque leva em consideração o fato de que o significado das palavras muda dependendo do contexto.

aqui estão alguns exemplos:

  • Braços dobrados na altura do cotovelo.
  • A Alemanha vende armas para a Arábia Saudita.
  • Encontre a solução em sua cabeça.
  • Aqueça a solução a 75 ° Celsius.
  • A chave quebrou na fechadura.
  • O principal problema não era a qualidade, mas a quantidade.

No cerne da indexação semântica latente está uma teoria chamada hipótese distributiva . De acordo com essa teoria, palavras que ocorrem no mesmo contexto tendem a ter significados semelhantes. Como disse um lingüista: "Você deve conhecer uma palavra pela companhia que ela mantém."

Em suma, palavras que compartilham contextos semelhantes tendem a ter significados semelhantes.

"Você deve saber uma palavra da empresa que mantém."


JR Firth, 1957

2. Análise de palavras-chave vs indexação semântica latente

Então, como isso se relaciona com os motores de busca?

No final da década de 1990, quando surgiram os primeiros mecanismos de pesquisa, a densidade de palavras-chave era a única medida de relevância disponível. Quanto mais vezes uma palavra-chave apareceu em um conteúdo, mais relevante ela era para a consulta de pesquisa.

Claro, a densidade de palavras-chave não conseguiu entender o contexto. E também era fácil de manipular. Os sites teriam uma classificação elevada nos resultados da pesquisa, enchendo seu conteúdo com uma determinada palavra-chave.

Mas quando a indexação semântica latente apareceu em cena, o preenchimento de palavras-chave não foi mais eficaz.

Por quê?

Porque com a indexação semântica latente, os motores de busca não estão procurando por uma única palavra-chave - eles estão procurando por padrões de palavras-chave .

Em outras palavras : os motores de busca estão se afastando da análise de palavras-chave em direção à autoridade no assunto.

3. Indexação Semântica Latente e Autoridade Tópica

Ao identificar padrões na maneira como as palavras se agrupam no conteúdo online, a indexação semântica latente é capaz de identificar grupos de palavras que constituem tópicos e subtópicos.

Com efeito, qualquer que seja o tópico sobre o qual você escreva, os mecanismos de pesquisa sabem qual grupo de palavras está associado a esse tópico ou subtópico . E isso significa que os motores de busca podem medir a autoridade de um determinado conteúdo.

Antigamente (1990 a ~ 2005), você podia classificar nos resultados da pesquisa enfatizando uma palavra-chave.

Mas, para classificar agora, você precisa mostrar que seu conteúdo tem autoridade no assunto. E isso significa usar todo o conjunto de palavras que foram identificadas com seu tópico por meio da indexação semântica latente.

4. Indexação semântica latente e autoridade tópica

Autoridade tópica supera autoridade de domínio

A autoridade no assunto está se tornando um importante fator de classificação para os mecanismos de pesquisa. No Google, por exemplo, você pode superar os sites com autoridade de domínio muito mais alta (ou seja, sites com um perfil de link muito mais forte), criando conteúdo com autoridade no assunto muito alta.

Quando minha autoridade de domínio tinha apenas 24 anos, costumava ultrapassar regularmente os sites com DA nos anos 80 e 90 simplesmente criando conteúdo com alta autoridade por assunto.

Os sites também têm autoridade por assunto

Até agora, tenho falado sobre autoridade por assunto no que se refere a uma única página da web ou a um único post de blog.

Mas o próprio site tem autoridade no assunto. E mecanismos de pesquisa como o Google já terão uma ideia muito boa de qual é a autoridade do seu site.

Por exemplo, se tudo o que você escreve é ​​sobre a música jazz dos anos 1930, seu site terá uma autoridade no assunto muito alta. Quando você publica artigos sobre esse tópico, sua página da web terá uma classificação muito alta. É provável que você supere os sites com autoridade de domínio superior.

Mas se o seu site cobre todos os gêneros e épocas do jazz que já existiram, sua página da web sobre o jazz dos anos 30 provavelmente não terá uma classificação tão alta quanto o artigo do outro site.

5. Indexação semântica latente e análise vetorial

Falamos muito sobre indexação semântica latente. Mas não é a única ferramenta que os computadores usam para tentar entender o significado das palavras.

Também existe uma coisa chamada análise vetorial.

Então, o que é a análise vetorial quando aplicada a palavras?

Um vetor de palavras é uma linha de valores matemáticos associados a uma única palavra. Cada valor na linha captura uma dimensão do significado da palavra.

Aqui está um exemplo:

latent semantic indexing

(Fonte)

Cada número na linha tenta encapsular o significado da palavra de acordo com um dos quatro vetores diferentes (animal, domesticado, animal de estimação, fofo).

A diferença entre a indexação semântica latente e os vetores de palavras é que o LSI é um modelo baseado em contagem - ele simplesmente conta quantas vezes as palavras ocorrem em um determinado contexto. Mas os vetores de palavras são um modelo baseado em previsão - eles tentam prever o significado de uma palavra, com base na análise vetorial.

Por exemplo, por meio da análise vetorial, o algoritmo do Google “entende que Paris e França estão relacionados da mesma forma que Berlim e Alemanha (capital e país), e não da mesma forma que Madrid e Itália”

6. O Google usa indexação semântica latente?

É aqui que começa a polêmica ...

Indexação semântica latente como 'tecnologia antiga'

Recentemente, vários artigos apareceram online alegando que o Google não usa indexação semântica latente. Alguns vão além e afirmam que entender como o LSI funciona não vai ajudar seu SEO.

Claro, ninguém fora do Google sabe exatamente o que o algoritmo do Google faz.

Mas vamos dar uma olhada na probabilidade (ou não) de que o Google use indexação semântica latente.

Alguns argumentaram que, como o LSI foi desenvolvido na década de 1980, é uma 'tecnologia antiga' e, portanto, é improvável que o Google use o LSI em seu algoritmo.

Há um problema com esse argumento.

A data em que o LSI foi descoberto é irrelevante para o fato de estar sendo usado pelo Google hoje.

Na verdade, a data em que qualquer tecnologia foi descoberta não influencia se ainda a usamos hoje.

Wilhelm Conrad Roentgen, discoverer of X rays

Wilhelm Conrad Roentgen, descobridor dos raios-x

(Fonte)

Por exemplo, os raios X foram descobertos em 1895 (por Wilhelm Conrad Roentgen, professor da Universidade de Wuerzburg, na Alemanha). Então, estritamente falando, eles são 'tecnologia antiga'.

Mas seria um absurdo os hospitais dizerem: “porque os raios X são baseados em tecnologia antiga, não vamos mais usar”.

Aqui está outro exemplo, mais perto de casa.

what is latent semantic indexing

Gottfried Wilhelm Leibniz, inventor do sistema binário

(Fonte)

Os computadores são baseados em um sistema binário, onde todos os dados são reduzidos a '0' ou '1'.

O sistema binário foi inventado por Gottfried Wilhelm Leibniz, que publicou sua invenção em um artigo de 1701 intitulado: 'Essay d'une nouvelle science des nombres'.

Então, você poderia argumentar que os computadores modernos são baseados em um 18 th Century invenção.

The Turing machine, forerunner of the modern computer

A máquina de Turing, precursora do computador moderno

(Fonte)

Algumas pessoas defendem uma origem mais recente . Eles rastreiam o computador moderno até a invenção de Alan Turing, em 1936, da "máquina universal" (agora chamada de máquina de Turing).

De qualquer forma, os computadores são baseados em 'tecnologia antiga' (1701 ou 1936 dependendo da sua perspectiva).

Portanto, o fato de o LSI ter sido descoberto na década de 1980 não está aqui nem ali - não significa que o LSI não seja mais relevante ou útil.

Pedido de patente de 2009 do Google

Como eu disse, o Google é muito cauteloso sobre como seus algoritmos funcionam.

Mas em março de 2009, o Google solicitou uma patente nos Estados Unidos (US 8.145.636 B1). O pedido de patente foi intitulado “Classificando Texto em Categorias Hierárquicas”.

Google patent application, 2009

O aplicativo contém este parágrafo:

“As técnicas de classificação de texto podem ser usadas para classificar o texto em uma ou mais categorias de assunto. A classificação / categorização de textos é uma área de pesquisa em ciência da informação que se preocupa em atribuir texto a uma ou mais categorias com base em seu conteúdo. Técnicas de classificação de texto típicas são baseadas em classificadores Bayes ingênuos, tf-idf, semântica latente indexação , máquinas de vetor de suporte e redes neurais artificiais, por exemplo ”.

Google patent application, 2009

Então, o Google usa indexação semântica latente?

Não sabemos com certeza.

Mas seria extraordinário se não o fizesse (e certamente não seria porque LSI é uma 'tecnologia antiga').

7. Como a LSI pode ajudá-lo a se classificar melhor no Google?

Existem várias maneiras pelas quais a LSI pode ajudá-lo a ter uma classificação mais elevada no Google. O mais importante é simplesmente perceber que o Google está focado em tópicos, não em palavras-chave.

Como mencionei acima, por meio da indexação semântica latente, o Google é capaz de mapear tópicos inteiros e os subtópicos que compõem esses tópicos. Isso, por sua vez, significa que o algoritmo pode medir quão bem o conteúdo de uma peça cobre um determinado tópico.

Em outras palavras, o Google pode medir a autoridade atual de seu conteúdo.

Aqui estão algumas maneiras de garantir que seu conteúdo tenha alta autoridade sobre o assunto:

Faça alguma análise de tópico. Observe os cinco principais resultados de pesquisa para sua palavra-chave focus e anote os tópicos e subtópicos que essas páginas da web cobrem. Tente garantir que seu conteúdo cubra mais desses tópicos e subtópicos do que qualquer outra parte do conteúdo

Crie clusters de tópicos. Escreva um artigo central que cubra um tópico em detalhes. E então escreva artigos 'satélite' que cobrem subtópicos com mais detalhes.

Por exemplo, você pode escrever um artigo central sobre os aviões de combate britânicos da Segunda Guerra Mundial. E então você poderia escrever um artigo de satélite sobre Spitfires, outro artigo sobre Hurricanes, outro sobre Gloster Gladiators e assim por diante.

Os artigos de satélite sobre os aviões de combate individuais irão construir a autoridade atual de seu artigo principal.

Use o Google Auto Suggest. Comece a digitar sua palavra-chave focus no Google e observe as variações de cauda longa que o Google apresenta. Todos esses são subtópicos que pertencem ao seu tópico principal. Tente incluir esses subtópicos como títulos em seu artigo.

Faça o mesmo com as 'Pessoas também perguntam' do Google (geralmente um terço no final da página de resultados) e as 'Pesquisas relacionadas' do Google (no rodapé da página de resultados) - todos são tópicos ou subtópicos relacionados. Inclua-os em cabeçalhos seguidos de alguns parágrafos, e você aumentará a autoridade do seu artigo.

Google: Palavras-chave LSI não existem

Não posso terminar este artigo sem abordar aquele tweet de John Mueller de julho de 2019.

Aqui está:

O que fazer com isso?

Bem, em primeiro lugar, ele não disse que o Google não usa indexação semântica latente. E, em segundo lugar, ele pode simplesmente ter feito objeções à terminologia "palavras-chave semânticas latentes".

Mas existe um grupo de palavras relacionadas que se agrupam em um padrão previsível para o tópico sobre o qual você está escrevendo? E o Google usa esses grupos de palavras para identificar tópicos?

Estou disposto a apostar nisso!

Conclusão

A indexação semântica latente é um método matemático para compreender o significado das palavras, estudando os padrões da maneira como as palavras se agrupam no conteúdo do texto.

Embora não haja nenhuma evidência de que os mecanismos de pesquisa o usem, parece mais do que provável que sim. Motores de busca como o Google provavelmente usam indexação semântica latente para entender o contexto e mapear tópicos e subtópicos.

A autoridade do tópico está substituindo a densidade de palavras-chave como um fator de classificação. Uma compreensão da indexação semântica latente o ajudará a construir autoridade sobre o assunto para seus artigos e seu site e obter uma classificação mais elevada nos resultados de pesquisa.

Artigos relacionados

  • O que são palavras-chave LSI (maneira fácil de impulsionar seu SEO)
  • O que são agrupamentos de tópicos e por que eles impulsionarão seu SEO
  • Como criar uma estrutura de silo em seu site (um guia ilustrado)