Cafeína: indexador de Google
Publicado: 2017-03-24
Las actualizaciones de los motores de búsqueda de Google son a menudo eventos misteriosos, pero a veces me encuentro con información en las patentes de Google que brindan información sobre cómo funciona algo. Una actualización de Google que tenía como objetivo hacer que Google fuera mucho más rápido de lo que había sido fue la actualización de cafeína, que fue anunciada oficialmente por Google en 2010 con esta publicación: Nuestro nuevo índice de búsqueda: cafeína.
Si realiza cambios en el contenido de una página web, ¿cuánto tiempo tardan esos cambios en aparecer en el índice de Google? Si publica una nueva página o publicación de blog, ¿cuándo pasa a formar parte del índice de Google como algo que puede ser consultado? Solía tomar algún tiempo antes de que el contenido agregado a la Web se convirtiera en algo que se pudiera buscar. Google actualizaría su índice y una gran cantidad de datos que se habían agregado a la web se volverían cuestionables en un movimiento al que muchas personas se referían como Google Dance. Luego, Google presentó un enfoque que significaba que se producían cambios en los resultados de búsqueda más rápidamente, y el exjefe de Web Spam de Google, Matt Cutts, se refirió a ello en este video donde describió el "flujo" que estaba sucediendo en los resultados de búsqueda de Google:
Google ha lanzado actualizaciones destinadas a acelerar la indexación de contenido en la Web. Una de esas actualizaciones se denominó actualización de Big Daddy. Otro que tuvo lugar en 2009 se denominó actualización de cafeína. Un aspecto ligeramente diferente está disponible en este artículo de periódico: Google Caffeine: lo que realmente es
Recientemente, me encontré con una patente que muestra cómo Google podría hacer que su índice de búsqueda sea mucho más rápido y decidí compartirlo después de haber visto la actualización de cafeína de Google culpada de muchos cambios en la forma en que el contenido en la Web se ha indexado a lo largo de los años: compartir esta patente. podría dar a las personas un poco más de comprensión de cómo Google puede indexar páginas en la Web. El mismo día se presentaron tres patentes relacionadas. Proporcionan una mirada interesante a cómo puede funcionar la cafeína. Lo que hacen es simplemente esto:
Las realizaciones divulgadas se refieren generalmente a sistemas y métodos de procesamiento de datos, y en particular a un repositorio de documentos que admite latencias bajas desde que se actualiza un documento hasta que el documento está disponible para consultas, y que requiere poca sincronización entre los hilos de consulta y los hilos de actualización del repositorio. .
Entonces, si se ha preguntado cuánto tiempo pasa desde el momento en que publica algo en la Web hasta el momento en que se agrega al índice de Google, depende de la sincronización descrita en esas patentes.
Google busca lo que se conoce como índice invertido, que contiene todas las palabras de cada documento que indexa en la web, junto con indicadores para la ubicación de esas palabras. La patente señala a lo que se refiere como "obstáculos" para proporcionar nuevos resultados. Éstas incluyen:
(1) el gasto o los gastos generales asociados con la reconstrucción del índice de documentos cada vez que se actualiza el depósito de documentos. Por ejemplo, una sobrecarga significativa a menudo se asocia con la creación de índices pequeños a partir de documentos nuevos y actualizados y la fusión periódica de índices pequeños con el índice principal, y dichos sistemas suelen sufrir latencias prolongadas entre las actualizaciones de documentos y la disponibilidad de esos documentos en el índice del repositorio.
(2) la dificultad de procesar continuamente consultas en el repositorio de documentos mientras se actualiza el repositorio, sin incurrir en grandes gastos generales. Un aspecto de este segundo obstáculo es la necesidad de sincronizar tanto los hilos que ejecutan consultas como los hilos que actualizan el repositorio de documentos con estructuras de datos clave en el repositorio de datos. La necesidad de sincronizar los hilos de consulta y los hilos de actualización del repositorio puede representar un obstáculo significativo para el funcionamiento eficiente del repositorio de documentos si las actualizaciones de documentos se realizan con frecuencia, lo que a su vez es una barrera para mantener la frescura del repositorio de documentos.
Para acceder a la patente y leer todo, aquí hay un enlace:
Sistema de grabación de documentos y método para actualizar documentos en un depósito de documentos y recuperar espacio de almacenamiento de documentos invalidados
Inventores: Michael Burrows y Jeffrey A. Dean
Cesionario: Google Inc.
Patente de EE. UU. 7,617,226
Concedido: 10 de noviembre de 2009
Archivado: 10 de febrero de 2006
Abstracto
Un repositorio de tokenspace almacena documentos como una secuencia de tokens. El repositorio de tokenspace, así como el índice invertido para el repositorio de tokenspace, utiliza una estructura de datos que tiene un primer extremo y un segundo extremo y permite inserciones en el segundo extremo y eliminaciones desde el front-end. Un documento en el repositorio de tokenspace se actualiza insertando la versión actualizada en el repositorio en el segundo extremo e invalidando la versión anterior. Los documentos invalidados no se eliminan de inmediato; se identifican en una lista de recolección de basura para su posterior recolección. El repositorio de tokenspace está diseñado para trasladar los documentos invalidados al front-end, momento en el que se pueden eliminar y recuperar su espacio de almacenamiento.
Caminadora
Cuando leí esta patente, una de las palabras que me llamó la atención fue "caminadora", que se utilizó para describir cómo se manejaban los datos en el índice de Google:
Debido a que la eliminación solo se puede realizar en los datos en la parte frontal, periódicamente los datos en las celdas se "andan". Es decir, los datos válidos en el front-end se copian en el back-end y los datos válidos originales en el front-end se eliminan. A medida que los datos válidos del front-end se mueven al back-end, los datos en las celdas entre el front-end y el back-end se desplazan lógicamente al front-end, donde se pueden eliminar si es necesario. Por lo tanto, la cinta de correr ayuda a recuperar el espacio de la memoria que está ocupado por datos (a veces llamados datos obsoletos) que ya no son válidos. A continuación se describe más información sobre la caminadora, en relación con las Figs. 13-15.
El resto de la patente proporciona más detalles sobre cómo funciona este sistema de indexación y, después de leerlo, me pregunté si se trataba de cafeína y si Google todavía usaba cafeína. Hace unos días, el portavoz de Google, Gary Illyes, hizo un par de tweets crípticos que se referían al indexador de cafeína de Google de formas que parecían indicar que todavía era importante y que Google todavía lo usaba:


