Google utiliza vectores de representación de sitios web para clasificar con experiencia y autoridad

Publicado: 2020-02-21

Agregado (2020-02-23) Preguntas y respuestas: Algunas preguntas sobre esta patente de vectores de representación de sitios web y algunas cosas al respecto, que quería abordar.

1. La actualización "Medic" , que Barry Schwartz nombró en agosto de 2018 porque parecía afectar a los sitios web médicos, también afectó a otros tipos de sitios web. Esta solicitud de patente, presentada en agosto de 2018, señala que cubre una variedad de industrias, incluidos sitios de salud e inteligencia artificial como ejemplos. Utiliza un ejemplo sobre los autores de sitios de salud que son médicos como expertos, estudiantes de medicina como aprendices y laicos como no expertos, por lo que le pedí a un diseñador gráfico de Go Fish Digital la imagen de cabecera de esta publicación que muestra uno de cada uno de ellos. Diferentes industrias están en esta patente y diferentes niveles de experiencia. Elegí tener una ilustración que reflejara el aspecto "médico" del proceso de la patente porque creía que era un reflejo exacto de lo que cubre la patente.

2. Niveles de calidad : la patente explica cómo podría clasificar aún más los sitios web en función de si cumplen con los umbrales en función de los índices de calidad. La patente no define específicamente un "puntaje de calidad" específicamente, pero Google tiene varias patentes sobre puntajes de calidad para sitios web. Una gran página de Google sobre lo que incluye un sitio web de alta calidad es una publicación de blog de Google de Amit Singhal: Más orientación sobre cómo crear sitios de alta calidad.

3. Clasificaciones de resultados : ¿Cómo podrían clasificarse los sitios en el proceso de esta patente? Las consultas de dominios de conocimiento específicos (que cubren temas específicos) pueden devolver resultados utilizando sitios clasificados como pertenecientes al mismo dominio de conocimiento. Por ejemplo, una consulta médica como cuáles son los síntomas de la mononucleosis de un dominio de conocimiento médico se responde mejor en un sitio clasificado como perteneciente a un dominio de conocimiento médico. La patente también nos dice que parte del propósito detrás de esta patente es limitar las páginas de resultados posibles basadas en clasificaciones que involucran la industria y la experiencia que cumplen con los umbrales de calidad suficientes. Clasifique esas páginas según la relevancia y los puntajes de autoridad:

0024] Los resultados de la búsqueda se clasifican según las puntuaciones relacionadas con los recursos identificados por los resultados de la búsqueda, como las puntuaciones de recuperación de información ("IR") y, opcionalmente, una clasificación separada de cada recurso en relación con otros recursos (p. Ej., Una puntuación de autoridad) . Según el orden, los resultados de la búsqueda se ordenan según estas puntuaciones y se proporcionan al dispositivo del usuario según el orden.

Clasificación de sitios web

Google nos dice que pueden usar vectores de representación de sitios web para clasificar sitios según las características que se encuentran en esos sitios.

Esta publicación trata sobre una nueva solicitud de patente de Google presentada en agosto de 2018 y publicada en la Organización Mundial de la Propiedad Intelectual (OMPI) la semana pasada.

La solicitud de patente utiliza redes neuronales para comprender patrones y características detrás de los sitios web para clasificar esos sitios.

Este sistema de clasificación de sitios web se refiere a "una representación compuesta, por ejemplo, un vector, para la clasificación de un sitio web dentro de un dominio de conocimiento en particular".

Esos dominios de conocimiento pueden ser temas como salud, finanzas y otros. Los sitios clasificados en dominios de conocimiento específicos pueden tener una ventaja al usar esa clasificación para devolver resultados de búsqueda a medida que responden a la recepción de una consulta de búsqueda.

Esas clasificaciones de sitios web pueden ser más diversas que representar categorías de sitios web dentro de los dominios del conocimiento. La patente desglosa las categorías mucho más:

Por ejemplo, las clasificaciones de sitios web pueden incluir la primera categoría de sitios web creados por expertos en el dominio del conocimiento, p. Ej., Médicos, la segunda categoría de sitios web creados por aprendices en el dominio del conocimiento, p. Ej., Estudiantes de medicina, y una tercera categoría de sitios web creados por legos en el dominio del conocimiento.

Recuerdo las discusiones en la industria de SEO sobre las Pautas de evaluadores de calidad de Google y las referencias en ellas a EAT o Experiencia, Autoridad y Confiabilidad. Las Directrices señalan los sitios de salud con diferentes niveles de EAT, al igual que las clasificaciones de esta nueva solicitud de patente de Google sobre los vectores de representación de sitios web:

Los consejos médicos de High EAT deben ser escritos o producidos por personas u organizaciones con
experiencia o acreditación. Escribir o producir información o consejos médicos de High EAT con un estilo profesional y debe editarse, revisarse y actualizarse periódicamente.

Las Directrices nos dicen que hay sitios creados por personas con poca experiencia en los temas:

Incluso es posible tener experiencia diaria en temas de YMYL. Por ejemplo, existen foros y páginas de apoyo para personas con enfermedades específicas. Compartir experiencias personales es una forma de pericia diaria. Considere este ejemplo.
Aquí, los participantes del foro cuentan cuánto tiempo vivieron sus seres queridos con cáncer de hígado. Este es un ejemplo de compartir
experiencias personales (en las que son expertos), no consejos médicos. Información y consejos médicos específicos (más bien
que descripciones de experiencias de vida) deben provenir de médicos u otros profesionales de la salud.

Las clasificaciones incluyen un nivel de expertos de sitios en el dominio de la salud, un nivel de aprendiz de sitios y un nivel de laicos de sitios.

Estas clasificaciones provienen de diferentes niveles de experiencia. Esta patente nos dice que también clasifica las páginas en función de la autoridad, pero no dice nada sobre la confiabilidad, por lo que no clasifica los sitios completamente en función de EAT. Este proceso captura dos aspectos de EAT, por lo que puede cumplir parte del objetivo de las Directrices para evaluadores de calidad al permitir que los evaluadores humanos tengan sitios que se clasifiquen bien, que exhiban altos niveles de autoridad y experiencia.

Además, si este proceso limita la cantidad de sitios desde los que Google tiene que devolver resultados de búsqueda en función del dominio de conocimiento en el que podrían estar, significa que Google está buscando en menos sitios para devolver resultados que el índice completo de la web de Google. Veamos el proceso detrás de esta solicitud de patente con un poco más de profundidad.

Clasifica muchos sitios web en dominios de conocimiento particulares e intenta encontrar diferentes niveles de sitios dentro de esos dominios de conocimiento particulares:

  • Recibir representaciones de sitios web y puntuaciones de calidad que representan medidas de calidad de sitios en relación con otros sitios.
  • Clasificar como primeros sitios web, cada sitio tiene puntuaciones de calidad por debajo de un primer umbral, al menos uno de la cantidad de sitios tiene una puntuación de calidad por debajo del primer umbral.
  • Clasificando como segundos sitios web, cada uno de los sitios tiene puntajes de calidad por encima de un segundo umbral mayor que el primer umbral, al menos uno de la cantidad de sitios web tiene un puntaje de calidad mayor que el primer umbral
  • Generación de una primera representación compuesta de los sitios web clasificados como primeros sitios web
  • Genere una segunda representación compuesta de los sitios web clasificados como segundos sitios web
  • Recibir una representación de otro sitio web
  • Determinación de una primera medida de la diferencia entre la primera representación compuesta y la representación
  • Determinación de la segunda medida de la diferencia entre la segunda representación compuesta y la representación
  • Con base en la primera medida de diferencia y la segunda medida de diferencia, clasifique el otro sitio web como uno de los primeros sitios web, los segundos sitios web o como terceros sitios web que no están clasificados como los primeros sitios web o los segundos sitios web.

El proceso de clasificación del sitio web

Las consultas solicitan respuestas de dominios de conocimiento particulares

La solicitud de patente nos dice que su proceso incluye el uso de términos de la consulta para comprender que la consulta solicita datos receptivos de un dominio de conocimiento en particular.

Puede buscar respuestas de ese dominio de conocimiento en particular. El proceso implica:

  • Generar, a partir de fuentes de datos autorizadas, respuestas preprocesadas a consultas futuras.
  • Recibir, después de generar las respuestas preprocesadas, una consulta determinada o mostrar el dominio de conocimiento particular
  • En respuesta, responder a la consulta con una de las respuestas preprocesadas

Ventajas de este enfoque de vectores de representación de sitios web

El Sistema de búsqueda puede seleccionar, buscar, o ambos, datos solo para sitios web con una clasificación particular, reduciendo los recursos informáticos necesarios para encontrar resultados de búsqueda, por ejemplo, al no seleccionar, buscar o ambos, cualquier sitio web independientemente de la clasificación. Esto puede:

  • Reducir la cantidad de almacenamiento necesario para almacenar datos para posibles resultados de búsqueda, por ejemplo, puede necesitar solo almacenamiento de datos para sitios web con la clasificación particular
  • Reducir muchos sitios web analizados por el sistema de búsqueda, por ejemplo, limitando una búsqueda a sitios con la clasificación particular
  • Reducir el ancho de banda de la red que se utiliza para proporcionar resultados de búsqueda a un dispositivo solicitante
  • Abordar problemas potenciales con sistemas anteriores, como un mayor uso de ancho de banda, memoria, ciclos del procesador, energía o una combinación de dos o más de estos.
  • Mejorar las páginas de resultados de búsqueda generadas por un sistema de búsqueda al incluir la identificación de solo sitios con una clasificación particular, por ejemplo, una clasificación cualitativa, en las páginas de resultados de búsqueda generadas
  • Utilice las características aprendidas de los sitios existentes para clasificar sitios web nunca antes vistos sin requerir la entrada del usuario para la clasificación.
  • Detectar sitios web que responden con mayor probabilidad a las consultas de un dominio de conocimiento, por ejemplo, es más probable que tengan autoridad para el dominio de conocimiento, clasificando antes que los sitios web no vistos.
  • Utilice una representación compuesta basada en clasificaciones de sitios web existentes, lo que significa que las características utilizadas por la clasificación no están limitadas por características discernibles por humanos y pueden ser cualquier característica que se pueda aprender mediante el análisis del sitio web.

Tenga en cuenta que ayuda a identificar sitios autorizados para diferentes dominios de conocimiento.

Esta solicitud de patente de vector de representación de sitio web se encuentra en:

Vector de representación de sitios web para generar resultados de búsqueda y clasificar sitios web
Número de publicación: WO2020033805
Solicitantes: GOOGLE LLC
Inventores: Yevgen Tsykynovskyy
Número de publicación WO / 2020/033805
Archivado: 10 de agosto de 2018
Fecha de publicación 13 de febrero de 2020

Abstracto:

Los métodos, sistemas y aparatos, incluidos los programas informáticos codificados en medios de almacenamiento informáticos, utilizan representaciones de sitios web para generar, almacenar o ambos resultados de búsqueda. Uno de los métodos incluye recibir datos que representan cada sitio web en la primera pluralidad de sitios web asociados con un primer dominio de conocimiento de una pluralidad de dominios de conocimiento y tener una primera clasificación; recibir datos que representan cada sitio web en la segunda pluralidad de sitios web asociados con el primer dominio de conocimiento y tener una segunda clasificación; generar una primera representación compuesta de la primera pluralidad de sitios web; generar una segunda representación compuesta de la segunda pluralidad de sitios web; recibir una representación de un tercer sitio web; determinar una primera medida de diferencia entre la primera representación compuesta y la representación; determinar una segunda medida de diferencia entre la segunda representación compuesta y la representación; y en base a la primera medida de diferencia y la segunda medida de diferencia, clasificando el tercer sitio web.

Datos del sistema de clasificación web

El motor de búsqueda puede utilizar datos de este sistema de clasificación de vectores de representación del sitio web para devolver resultados de búsqueda.

Ese sistema de clasificación puede usar representaciones para cada uno de los muchos sitios web AN y usar las representaciones para determinar una clasificación para cada uno de los muchos sitios web AN.

Elección de características

El motor de búsqueda decide utilizar la clasificación para una consulta de búsqueda para elegir una categoría de sitios web con la misma clasificación o una similar.

Puede devolver resultados de búsqueda de esa categoría de sitios.

Las clasificaciones de los sitios dependen de las características que contienen los sitios.

Clasificación de sitios web en la patente de vectores de representación de sitios web

Esta fue la parte de la descripción de la patente que más me interesó encontrar.

Comienza diciéndonos que el sistema de clasificación de vectores de representación de este sitio web podría usar cualquier método apropiado para generar clasificaciones, lo que le da a Google mucha flexibilidad.

Pero luego entra en más detalles diciéndonos que la clasificación depende del contenido de los sitios web para generar representaciones de esos sitios.

Ese contenido puede incluir:

  • Texto del sitio web
  • Imágenes en el sitio web
  • Otro contenido del sitio web, por ejemplo, enlaces
  • O una combinación de dos o más de estos

Luego, la patente proporciona detalles sobre cómo se involucra una red neuronal:

El sistema de clasificación de sitios web puede utilizar un mapeo que mapea el contenido del sitio web para el sitio web A a un espacio vectorial que representa una representación del sitio web A.

Por ejemplo, el sistema de clasificación de sitios web puede usar una red neuronal que represente el mapeo para crear un vector de características A que represente el sitio web A usando el contenido del sitio web A como entrada a la red neuronal.

Etiquetas utilizadas en vectores de representación de sitios web

Basar la clasificación de sitios web puede requerir el uso de etiquetas. Las etiquetas:

  • Pueden ser caracteres alfanuméricos, numéricos o alfabéticos, símbolos o una combinación de dos o más de estos
  • Puede indicar un tipo de entidad que tenía publicado el sitio web correspondiente, como una organización sin fines de lucro o una empresa con fines de lucro.
  • Mi programa muestra una industria descrita en un sitio, como inteligencia artificial o educación.
  • Puede indicar un tipo de persona que fue el autor de un sitio, como un médico, un estudiante de medicina o un lego.
  • También podrían ser puntuaciones que representen la clasificación de un sitio web.

Las puntuaciones para las clasificaciones se pueden utilizar:

  • Para cumplir con diferentes umbrales para cumplir con las categorías.
  • Puede ser específico para un dominio de conocimiento en particular.
  • Para clasificar un sitio para cubrir más de un dominio de conocimiento
  • Para seleccionar sitios que respondan a muchas consultas para dominios de conocimiento particulares
  • Con la autoridad del sitio web respectivo para el dominio de conocimiento particular
  • O ambos

Los datos de entrada que se utilizan para clasificar sitios pueden tener en cuenta cosas como:

  • Una posición de palabras particulares entre sí, por ejemplo, que la palabra "artificial" generalmente está cerca o al lado de la palabra "inteligencia".
  • Frases particulares incluidas en el sitio web
  • Para cada una de las clasificaciones AB, una medida de diferencia, o una medida de similitud, que representa una similitud entre la clasificación respectiva y el otro sitio web
  • La clasificación AB que es más similar
  • La clasificación AB con la medida de similitud más alta, o con la distancia más corta entre el otro vector de características y el vector de características promedio respectivo AB, por nombrar algunos ejemplos.
  • Una relación entre dos medidas de similitud para seleccionar una clasificación para el otro sitio web

Esta patente de vectores de representaciones de sitios web nos dice varias otras formas en que los datos pueden pasar durante el proceso de clasificación.

Los niveles de calidad que indican una clasificación de un sitio pueden ser medidas de:

  • Autoridad
  • Capacidad de respuesta para un dominio de conocimiento particular
  • Otra propiedad del sitio web
  • O una combinación de dos o más de estos

Conclusiones de este enfoque de clasificación de vectores de representación de sitios web

  • El texto, las imágenes y los enlaces dentro de los sitios web determinan cómo se clasifican
  • Los niveles de calidad de los sitios clasificados pueden indicar la autoridad o la capacidad de respuesta de un sitio para un dominio de conocimiento en particular, o ambos
  • Las etiquetas utilizadas para clasificar sitios pueden incluir información sobre la entidad detrás de un sitio, la industria descrita en el sitio y el tipo de persona que es el autor de un sitio.
  • Un sitio puede cubrir más de un dominio de conocimiento.
  • Última actualización 23 de febrero de 2020