¿La actualización de Groundhog acaba de tener lugar en Google?

Publicado: 2017-02-08

Actualización de la marmota

Una historia que se publicó en Search Engine Land hace unos días nos informó de un posible nuevo algoritmo en Google: la actualización no confirmada del algoritmo de Google puede ser mejor para descontar enlaces y spam. Antes de leer esa publicación, acababa de leer una nueva patente de Google y la publicación me recordó la patente. La patente se otorgó el 31 de enero de 2017 y es posible que lo que se describe en la patente sea lo que las personas estaban experimentando en la actualización informada en Search Engine Land.

El algoritmo detrás de la patente se basa en clasificaciones que involucran cuántos recursos pueden vincularse a un recurso que puede clasificarse (como la patente de PageRank de Stanford). Históricamente, en Google, una página que tiene una gran cantidad de recursos que se vinculan a ella puede tener una clasificación más alta que otras páginas que tienen una menor cantidad de recursos que se vinculan a ella. Pero, ¿qué pasaría si Google decidiera mirar más de cerca esos recursos y degradar parte del peso de clasificación que les transmitieron? Hemos visto indicios de que Google puede hacer algo así en la Patente de surfista razonable que tenía enlaces que pasaban diferentes cantidades de PageRank. Otra forma de cambiar la cantidad de PageRank que se puede transmitir junto con un enlace podría basarse en la cantidad de tráfico que un recurso puede recibir de los enlaces y los tiempos de permanencia del tráfico de esos enlaces, ya sean clics cortos, clics medios o clics largos.

Este enfoque de enlace también puede considerar otros aspectos de los enlaces, como el texto de anclaje para un enlace que apunta a un recurso de origen, que considerará como un n-grama y asignará una puntuación de origen para ese texto de anclaje utilizado para enlazar a una página. .

Esta fue una declaración interesante que encontré la primera vez que leí la patente recién otorgada:

Las clasificaciones de los resultados de búsqueda se pueden ajustar en función de la propensión de una consulta de búsqueda a mostrar resultados de búsqueda relacionados con el spam. La ponderación de los recuentos de enlaces de recursos en un proceso de clasificación se puede reducir para consultas de búsqueda que tienen una alta propensión a mostrar resultados de búsqueda relacionados con spam para reducir el sesgo en las clasificaciones de recursos causado por algunos recursos que tienen un número desproporcionadamente grande de enlaces en comparación con el número de selecciones de los enlaces.

La patente nos dice que tiene una serie de ventajas en su uso que pueden hacer que valga la pena usarla, incluido el descuento de algunos enlaces en las clasificaciones de las páginas a las que se enlaza.

Ventajas de este proceso patentado

1) Los resultados de búsqueda de recursos se pueden clasificar con mayor precisión utilizando datos relacionados con los enlaces a los recursos y las selecciones de esos enlaces.
2) Se puede determinar una puntuación inicial para un recurso en función del número de enlaces al recurso contenido en otros recursos y una serie de selecciones de esos enlaces.
3) Se pueden identificar los recursos de origen que incluyen enlaces a recursos que tienen un número desproporcionado de enlaces en relación con el número de selecciones, como lo indican las puntuaciones iniciales de esos recursos.
4) Los enlaces de estos recursos de origen identificados se pueden descontar en un proceso de clasificación que clasifica los recursos en función del número de enlaces al recurso.
5) Los recursos para los cuales los datos sobre enlaces no están disponibles o son insuficientes pueden puntuarse utilizando datos sobre recursos que incluyen un enlace al recurso.

La patente sobre la que estoy escribiendo se puede encontrar aquí, y vale la pena dedicarle un tiempo a:

Determinar una medida de calidad para un recurso
Inventores: Hyung-Jin Kim, Paul Haahr, Kien Ng, Chung Tin Kwok, Moustafa A. Hammad y Sushrut Karanjkar
Cesionario: Google
Patente de Estados Unidos: 9.558.233
Concedido: 31 de enero de 2017
Archivado: 31 de diciembre de 2012

Abstracto:

Métodos, sistemas y aparatos, incluidos programas informáticos codificados en un medio de almacenamiento informático, para determinar una medida de calidad de un recurso. En un aspecto, un método incluye determinar una puntuación inicial para cada recurso inicial en un conjunto. La puntuación inicial para un recurso inicial puede basarse en varios recursos que incluyen un enlace al recurso inicial y una serie de selecciones de enlaces. Se identifica un conjunto de recursos fuente. Se determina una puntuación de origen para cada recurso de origen. El puntaje de origen de un recurso de origen se basa en el puntaje de origen de cada recurso de origen vinculado por el recurso de origen. Se identifican los recursos con referencia a la fuente. Se determina una puntuación de recurso para cada recurso referenciado en origen. La puntuación del recurso para un recurso con referencia a la fuente se puede basar en la puntuación de la fuente para cada recurso de la fuente que incluye un enlace al recurso con referencia a la fuente.

Degradación basada en una gran cantidad de enlaces que no producen mucho tráfico

Este fue otro pasaje de la patente que me llamó la atención porque apuntaba a resultados potencialmente dañinos para los enlaces que no coincidían con las expectativas que se podrían tener para ellos:

Un sistema puede determinar una medida de calidad para un recurso web en particular en función del número de otros recursos que se vinculan al recurso web en particular y la cantidad de tráfico que recibe el recurso. Por ejemplo, un proceso de clasificación puede clasificar una primera página web que tiene un gran número de otras páginas web que enlazan con la primera página web más alto que una página web que tiene un número menor de páginas web enlazadas. Sin embargo, algunos recursos pueden estar vinculados por una gran cantidad de otros recursos, mientras reciben poco tráfico de los enlaces. Por ejemplo, una entidad puede intentar jugar con el proceso de clasificación incluyendo un enlace al recurso en otra página web. Esta gran cantidad de enlaces puede sesgar la clasificación de los recursos. Para evitar tal sesgo, el sistema puede evaluar el "desajuste" entre el número de recursos de enlace y el tráfico generado al recurso desde los recursos de enlace. Si un recurso está vinculado por un número de recursos que es desproporcionado con respecto al tráfico recibido por el uso de esos enlaces, ese recurso puede ser degradado en el proceso de clasificación.

¿Cómo se puede determinar el tráfico debido a un enlace?

La evaluación de recursos se puede realizar mediante un proceso de "tirar-empujar". En un proceso de extracción y envío de ejemplo, se determina una puntuación inicial para cada uno de un conjunto de recursos iniciales para los que se dispone de suficientes datos de enlace y tráfico. La puntuación inicial para un recurso inicial en particular se basa en la cantidad de recursos de origen que se vinculan al recurso inicial y la cantidad de tráfico generado al recurso desde los recursos de origen. En algunas implementaciones, la puntuación inicial para un recurso en particular es la relación entre el número de selecciones de enlaces al recurso en particular y el número de recursos de origen que se vinculan al recurso en particular.

Estos puntajes de origen se “extraen” de los recursos de origen y se utilizan para determinar un puntaje de origen para cada recurso de origen. En algunas implementaciones, el puntaje de origen para un recurso de origen se basa en el puntaje de origen de cada recurso de origen al que se vincula el recurso de origen. Estos puntajes de fuente se pueden usar para clasificar cada recurso de fuente como una "fuente calificada" o una "fuente no calificada".

Los enlaces de fuentes que pudieran determinarse como no calificados podrían entonces descartarse.

Recursos relacionados con el spam

Algunas consultas tienden a producir más spam que otras. La patente apunta a un grupo en particular:

Por ejemplo, los editores de muchos sitios web para compartir videos intentan manipular las clasificaciones creando enlaces a los sitios, lo que da como resultado un número desproporcionadamente grande de enlaces en comparación con el número de selecciones, mientras que los sitios web de noticias nacionales normalmente no intentan tal manipulación.

En el caso de consultas que suelen generar mayores cantidades de spam, los clics de selección pueden recibir más valor en este cálculo de enlaces en comparación con el tráfico enviado por esos enlaces:

Para las consultas que tienen una alta propensión a aparecer en páginas web relacionadas con spam, el sistema puede otorgar un mayor peso a los recuentos de selección para los resultados de búsqueda y un peso menor a los recuentos de enlaces de recursos para los resultados de búsqueda al clasificar los resultados de búsqueda. Por lo tanto, se puede decir que el sistema "confía" en que los clics cuentan más que los recursos que cuentan los enlaces para las consultas de búsqueda que tienen una propensión a mostrar páginas web relacionadas con el spam.

El nivel de calidad de la selección puede basarse en el tiempo de permanencia

Parte del proceso involucrado en el cálculo de un puntaje de calidad para los recursos implica determinar un puntaje inicial para un recurso semilla. Esto puede comenzar con la identificación de un recuento de recursos de enlace para el recurso semilla. Eso se puede hacer mirando la cantidad de recursos que incluyen un enlace al recurso semilla.

El siguiente aspecto de eso implica identificar un recuento de selección para el recurso semilla. Este recuento de selección para el recurso semilla puede basarse en varias veces que se han seleccionado los enlaces al recurso semilla que están incluidos en otros recursos.

Se determina una puntuación de calidad de selección para al menos una parte de las selecciones de los enlaces al recurso semilla. El puntaje de calidad de selección para una selección es una medida de calidad para la selección y se puede usar para descontar selecciones de baja calidad al determinar el puntaje de semilla para el recurso semilla.

Esto trae recuerdos del libro de Steven Levy, llamado In the Plex, en el que afirmó que una métrica que la gente de Google a menudo trataba con una perspectiva positiva era una a la que se referían como "The Long Click".

La patente nos dice:

El puntaje de calidad de la selección puede ser más alto para una selección que da como resultado un tiempo de permanencia prolongado (por ejemplo, mayor que un período de tiempo de umbral) que el puntaje de calidad de selección para una selección que da como resultado un tiempo de permanencia corto (por ejemplo, menos de un tiempo de umbral) período). Como las selecciones de enlaces generadas automáticamente son a menudo de corta duración, considerar el tiempo de permanencia para determinar la puntuación inicial puede dar cuenta de estas selecciones de enlaces falsas.

La patente también nos dice que algún comportamiento de selección histórico podría indicar que las selecciones fueron realizadas por usuarios reales en lugar de un proceso automatizado.

Los recursos con puntajes de recursos relativamente bajos pueden degradarse en las clasificaciones y los recursos con puntajes de recursos altos pueden aumentar en las clasificaciones.

Para llevar

La patente proporciona muchos más detalles de los que tengo en esta publicación, y es una lectura muy recomendable. Es el primero que puedo recordar que ha intentado establecer algún tipo de puntaje de calidad para los enlaces que apuntan a páginas en la web y determinar cuánto peso deben transmitir. La patente de navegante razonable era diferente en que determinaba cuánto peso podía pasar un enlace en función de la probabilidad de que fuera importante en función de las características involucradas en cómo (y dónde) se presentaba en una página.

Mencioné en Twitter que estaría escribiendo sobre la publicación de Search Engine Land que mencioné al comienzo de esta publicación, y que tenía una suposición sobre lo que podría haberse implementado que resultaría en el cambio algorítmico en Google que varios la gente se había dado cuenta. Recibí una sugerencia de Jonathan Hochman de que consideraría referirme a ella como la Actualización de la marmota, considerando el momento, y que parecía entrar en vigencia a principios de febrero. Esta patente se otorgó el último día de enero y, si bien podría haberse implementado antes, es posible que también se haya implementado a principios de febrero.

¿Lo que sucedió algorítmicamente en Google fue una ponderación de los recursos de enlace en función del tráfico asociado con ellos, o si estaban asociados o no con resultados de spam?