¿Qué es la indexación semántica latente? 7 cosas que necesitas saber

Publicado: 2020-03-13

¿Se pregunta qué es la indexación semántica latente?

Hay mucha confusión en torno a LSI. E incluso controversia. En este artículo, explico qué es, cómo lo usan los motores de búsqueda y cómo puedes usarlo para clasificar más alto en los resultados de búsqueda.

Pero primero…

what is latent semantic indexing
Tabla de contenido
1. ¿Qué es la indexación semántica latente?
2. Análisis de palabras clave frente a indexación semántica latente
3. Indexación semántica latente y autoridad temática
4. Indexación semántica latente y autoridad temática
La autoridad temática triunfa sobre la autoridad de dominio
Los sitios web también tienen autoridad temática
5. Indexación semántica latente y análisis de vectores
6. ¿Utiliza Google la indexación semántica latente?
Indexación semántica latente como 'tecnología antigua'
Solicitud de patente de 2009 de Google
7. ¿Cómo puede LSI ayudarlo a clasificar mejor en Google?
Google: no existen las palabras clave LSI
Conclusión
Artículos relacionados

1. ¿Qué es la indexación semántica latente?

Entonces, ¿qué es exactamente la indexación semántica latente?

La indexación semántica latente es un método matemático para encontrar patrones en la forma en que las palabras se agrupan en el contenido en línea. Luego, esa información se indexa para que pueda usarse para responder consultas.

Para decirlo de otra manera, la indexación semántica latente estudia la co-ocurrencia de palabras. Al hacer eso, encuentra las relaciones ocultas (latentes) entre palabras, lo que a su vez le permite comprender el significado (semántica).

La indexación semántica latente fue un gran paso adelante para el campo de la comprensión de textos porque tiene en cuenta el hecho de que el significado de las palabras cambia según el contexto.

Aquí hay unos ejemplos:

  • Los brazos se doblan a la altura del codo.
  • Alemania vende armas a Arabia Saudita.
  • Calcula la solución en tu cabeza.
  • Calentar la solución a 75 ° Celsius.
  • La llave se rompió en la cerradura.
  • El problema clave no es de calidad, sino de cantidad.

En el corazón de la indexación semántica latente se encuentra una teoría llamada Hipótesis distributiva . Según esta teoría, las palabras que aparecen en el mismo contexto tienden a tener significados similares. Como dijo un lingüista: "Conocerás una palabra por la compañía que tiene".

En resumen, las palabras que comparten contextos similares tienden a tener significados similares.

"Sabrás una palabra por la compañía que mantiene".


JR Firth, 1957

2. Análisis de palabras clave frente a indexación semántica latente

Entonces, ¿cómo se relaciona esto con los motores de búsqueda?

A fines de la década de 1990, cuando aparecieron los primeros motores de búsqueda, la densidad de palabras clave era la única medida de relevancia disponible. Cuantas más veces aparecía una palabra clave en un contenido, más relevante era para la consulta de búsqueda.

Por supuesto, la densidad de palabras clave no logró comprender el contexto. Y también fue fácil de manipular. Los sitios web ocuparían un lugar destacado en los resultados de búsqueda si rellenaran su contenido con una palabra clave determinada.

Pero cuando apareció en escena la indexación semántica latente, el relleno de palabras clave dejó de ser efectivo.

¿Por qué?

Porque con la indexación semántica latente, los motores de búsqueda no buscan una sola palabra clave, sino patrones de palabras clave .

Para decirlo de otra manera: los motores de búsqueda se están alejando del análisis de palabras clave hacia la autoridad de actualidad .

3. Indexación semántica latente y autoridad temática

Al identificar patrones en la forma en que las palabras se agrupan en el contenido en línea, la indexación semántica latente puede identificar grupos de palabras que componen temas y subtemas.

En efecto, sea cual sea el tema sobre el que escriba, los motores de búsqueda saben qué grupo de palabras está asociado con ese tema o subtema . Y eso significa que los motores de búsqueda pueden medir la autoridad temática de un contenido.

En los viejos tiempos (de 1990 a ~ 2005) se podía clasificar en los resultados de búsqueda enfatizando una palabra clave.

Pero para clasificar ahora, debe demostrar que su contenido tiene autoridad de actualidad. Y eso significa usar todo el grupo de palabras que se han identificado con su tema a través de la indexación semántica latente.

4. Indexación semántica latente y autoridad temática

La autoridad temática triunfa sobre la autoridad de dominio

La autoridad temática se está convirtiendo en un factor de clasificación importante para los motores de búsqueda. En Google, por ejemplo, puede superar a los sitios web con una autoridad de dominio mucho más alta (es decir, sitios web con un perfil de enlace mucho más fuerte) mediante la creación de contenido que tiene una autoridad temática muy alta.

Cuando mi autoridad de dominio tenía solo 24 años, solía superar regularmente a los sitios web con DA en los años 80 y 90 simplemente creando contenido con alta autoridad de actualidad.

Los sitios web también tienen autoridad temática

Hasta ahora, he estado hablando de la autoridad temática en lo que respecta a una sola página web o una sola publicación de blog.

Pero un sitio web en sí mismo tiene autoridad de actualidad. Y los motores de búsqueda como Google ya tendrán una muy buena idea de cuál es la autoridad de actualidad de su sitio web.

Por ejemplo, si todo lo que escribe es sobre música jazz de la década de 1930, su sitio web tendrá una autoridad temática muy alta sobre ese tema. Cuando publique artículos sobre ese tema, su página web tendrá una clasificación muy alta. Es probable que supere a los sitios web con mayor autoridad de dominio.

Pero si su sitio web cubre todos los géneros y épocas de jazz que han existido, su página web sobre el jazz de la década de 1930 probablemente no ocupará un lugar tan alto como el artículo del otro sitio web.

5. Indexación semántica latente y análisis de vectores

Hemos hablado mucho sobre la indexación semántica latente. Pero no es la única herramienta que utilizan las computadoras para intentar comprender el significado de las palabras.

También hay algo llamado análisis vectorial.

Entonces, ¿qué es el análisis de vectores cuando se aplica a las palabras?

Un vector de palabra es una fila de valores matemáticos asociados con una sola palabra. Cada valor de la fila captura una dimensión del significado de la palabra.

He aquí un ejemplo:

latent semantic indexing

(Fuente)

Cada número de la fila intenta encapsular el significado de la palabra de acuerdo con uno de los cuatro vectores diferentes (animal, domesticado, mascota, esponjoso).

La diferencia entre la indexación semántica latente y los vectores de palabras es que LSI es un modelo basado en conteo; simplemente cuenta cuántas veces aparecen las palabras en un contexto determinado. Pero los vectores de palabras son un modelo basado en predicciones: intentan predecir el significado de una palabra basándose en el análisis de vectores.

Por ejemplo, a través del análisis vectorial, el algoritmo de Google "entiende que París y Francia están relacionados de la misma forma que Berlín y Alemania (capital y país), y no de la misma forma que Madrid e Italia".

6. ¿Utiliza Google la indexación semántica latente?

Aquí es donde comienza la controversia ...

Indexación semántica latente como 'tecnología antigua'

Últimamente, han aparecido varios artículos en línea que afirman que Google no utiliza la indexación semántica latente. Algunos de ellos van más allá y afirman que comprender cómo funciona LSI no ayudará a su SEO.

Por supuesto, nadie fuera de Google sabe exactamente qué hace el algoritmo de Google.

Pero veamos la probabilidad (o no) de que Google use indexación semántica latente.

Algunos han argumentado que debido a que LSI se desarrolló en la década de 1980, es una 'tecnología antigua' y, por lo tanto, es poco probable que Google use LSI en su algoritmo.

Hay un problema con este argumento.

La fecha en que se descubrió LSI es irrelevante para saber si Google lo está utilizando en la actualidad.

De hecho, la fecha en que se descubrió cualquier tecnología no influye en si todavía la usamos en la actualidad.

Wilhelm Conrad Roentgen, discoverer of X rays

Wilhelm Conrad Roentgen, descubridor de los rayos X

(Fuente)

Por ejemplo, los rayos X fueron descubiertos en 1895 (por Wilhelm Conrad Roentgen, profesor de la Universidad de Wuerzburg en Alemania). Es decir, estrictamente hablando, son "tecnología antigua".

Pero sería absurdo que los hospitales digan: “porque los rayos X se basan en tecnología antigua, ya no los usaremos”.

Aquí hay otro ejemplo, más cerca de casa.

what is latent semantic indexing

Gottfried Wilhelm Leibniz, inventor del sistema binario

(Fuente)

Las computadoras se basan en un sistema binario, donde todos los datos se reducen a un '0' o un '1'.

El sistema binario fue inventado por Gottfried Wilhelm Leibniz, quien publicó su invento en un artículo de 1701 titulado: 'Essay d'une nouvelle science des nombres'.

Así se podría argumentar que las computadoras modernas se basan en un siglo 18 invención.

The Turing machine, forerunner of the modern computer

La máquina de Turing, precursora de la computadora moderna

(Fuente)

Algunas personas abogan por un origen más reciente . Ellos rastrean la computadora moderna hasta la invención de Alan Turing de 1936 de la 'máquina universal' (ahora llamada máquina de Turing).

De cualquier manera, las computadoras se basan en "tecnología antigua" (1701 o 1936, según su perspectiva).

Entonces, el hecho de que LSI se descubrió en la década de 1980 no está aquí ni allá, no significa que LSI ya no sea relevante o útil.

Solicitud de patente de 2009 de Google

Como dije, Google es muy cauteloso sobre cómo funcionan sus algoritmos.

Pero en marzo de 2009, Google solicitó una patente en los EE. UU. (US 8.145.636 B1). La solicitud de patente se tituló "Clasificación de texto en categorías jerárquicas".

Google patent application, 2009

La aplicación contiene este párrafo:

“Las técnicas de clasificación de texto se pueden utilizar para clasificar el texto en una o más categorías de materias. La clasificación / categorización de textos es un área de investigación en las ciencias de la información que se ocupa de asignar texto a una o más categorías según su contenido. Las técnicas típicas de clasificación de texto se basan en clasificadores ingenuos de Bayes, tf-idf, semántica latente indexación , soporte de máquinas vectoriales y redes neuronales artificiales, por ejemplo ”.

Google patent application, 2009

Entonces, ¿Google usa indexación semántica latente?

No lo sabemos con certeza.

Pero sería extraordinario si no fuera así (y ciertamente no lo sería porque LSI es "tecnología antigua").

7. ¿Cómo puede LSI ayudarlo a clasificar mejor en Google?

Hay varias formas en que LSI puede ayudarlo a obtener una clasificación más alta en Google. Lo más importante es simplemente darse cuenta de que Google se centra en temas, no en palabras clave.

Como mencioné anteriormente, a través de la indexación semántica latente, Google puede mapear temas completos y los subtemas que componen esos temas. Eso, a su vez, significa que el algoritmo puede medir qué tan bien el contenido de una pieza cubre un tema en particular.

Para decirlo de otra manera, Google puede medir la autoridad temática de su contenido.

A continuación, se muestran algunas formas de asegurarse de que su contenido tenga una alta autoridad temática:

Haz un análisis de tema. Mire los cinco primeros resultados de búsqueda para su palabra clave de enfoque y tome nota de los temas y subtemas que cubren esas páginas web. Trate de asegurarse de que su contenido cubra más de esos temas y subtemas que cualquier otro contenido.

Crea grupos de temas. Escriba un artículo central que cubra un tema en detalle. Y luego escriba artículos "satélite" que cubran subtemas con más detalle.

Por ejemplo, podría escribir un artículo básico sobre los aviones de combate británicos de la Segunda Guerra Mundial. Y luego podrías escribir un artículo satelital sobre Spitfires, otro artículo sobre Hurricanes, otro sobre Gloster Gladiators, etc.

Los artículos satelitales sobre los aviones de combate individuales desarrollarán la autoridad temática de su artículo principal.

Utilice la sugerencia automática de Google. Comience a escribir su palabra clave de enfoque en Google y observe las variaciones de cola larga que se le ocurren a Google. Todos esos son subtemas que pertenecen a su tema principal. Intente incluir esos subtemas como títulos en su artículo.

Haga lo mismo con "La gente también pregunta" de Google (generalmente un tercio hacia abajo en la página de resultados) y las "Búsquedas relacionadas" de Google (al pie de la página de resultados); todos estos son temas o subtemas relacionados. Inclúyelos debajo de los títulos seguidos de algunos párrafos y aumentarás la autoridad temática de tu artículo.

Google: no existen las palabras clave LSI

No puedo terminar este artículo sin abordar ese tweet de John Mueller de julio de 2019.

Aquí está:

¿Qué hacer con esto?

Bueno, en primer lugar, no dijo que Google no usa indexación semántica latente. Y en segundo lugar, es posible que simplemente se haya opuesto a la terminología "palabras clave semánticas latentes".

Pero, ¿existe un grupo de palabras relacionadas que se agrupan en un patrón predecible para el tema sobre el que estás escribiendo? ¿Utiliza Google esos grupos de palabras para identificar temas?

¡Estoy dispuesto a apostar!

Conclusión

La indexación semántica latente es un método matemático para comprender el significado de las palabras mediante el estudio de patrones en la forma en que las palabras se agrupan en el contenido del texto.

Si bien no hay pruebas contundentes de que los motores de búsqueda lo utilicen, parece más que probable que lo hagan. Los motores de búsqueda como Google probablemente utilicen la indexación semántica latente para comprender el contexto y trazar temas y subtemas.

La autoridad temática está reemplazando la densidad de palabras clave como factor de clasificación. La comprensión de la indexación semántica latente lo ayudará a desarrollar una autoridad temática para sus artículos y su sitio web y obtener una clasificación más alta en los resultados de búsqueda.

Artículos relacionados

  • ¿Qué son las palabras clave LSI (forma fácil de impulsar su SEO)?
  • ¿Qué son los clústeres de temas y por qué impulsarán su SEO?
  • Cómo crear una estructura de silos en su sitio web (una guía ilustrada)