Кофеин: индексатор Google

Опубликовано: 2017-03-24

Google кофеин

Обновления поисковой системы Google часто являются загадочными событиями, но иногда я сталкиваюсь с информацией в патентах Google, которые дают некоторое представление о том, как что-то работает. Одним из обновлений Google, направленных на то, чтобы сделать Google намного быстрее, чем раньше, было обновление Caffeine, о котором Google официально объявил в 2010 году в следующем сообщении: «Наш новый поисковый индекс: кофеин».

Если вы вносите изменения в содержание веб-страницы, сколько времени потребуется, чтобы эти изменения были внесены в индекс Google? Если вы публикуете новую страницу или сообщение в блоге, когда это становится частью индекса Google как то, что можно запрашивать? Раньше требовалось некоторое время, прежде чем контент, добавленный в Интернет, стал доступным для поиска. Google обновлял свой индекс, и многие данные, которые были добавлены в Интернет, становились доступными для запросов в рамках движения, которое многие люди называли танцем Google. Затем Google представил подход, который означал, что изменения вносились в результаты поиска быстрее, и бывший глава Google по веб-спаму Мэтт Каттс упомянул об этом в этом видео, где описал «поток», который происходил в результатах поиска Google:

Google выпустил обновления, которые были предназначены для ускорения индексации контента в Интернете. Одно из этих обновлений называлось обновлением Big Daddy. Еще одно мероприятие, имевшее место в 2009 году, называлось обновлением кофеина. В этой газетной статье представлен немного другой взгляд: Google Caffeine: что это на самом деле

Недавно я наткнулся на патент, который демонстрирует, как Google может сделать свой поисковый индекс намного быстрее, и решил поделиться им после того, как увидел обновление Google Caffeine, обвиняемое во многих изменениях в том, как контент в Интернете индексировался за эти годы - поделившись этим патентом может дать людям немного больше понимания того, как Google может индексировать страницы в Интернете. В один день были поданы три связанных патента. Они дают интересный взгляд на то, как действует кофеин. Они просто так:

Раскрытые варианты осуществления в целом относятся к системам и способам обработки данных, и, в частности, к репозиторию документов, который поддерживает низкие задержки с момента обновления документа до момента, когда документ доступен для запросов, и который требует небольшой синхронизации между потоками запросов и потоками обновления репозитория. .

Итак, если вы задаетесь вопросом, сколько времени проходит с момента публикации чего-либо в Интернете до момента его добавления в индекс Google, это зависит от синхронизации, описанной в этих патентах.

Google выполняет поиск в так называемом инвертированном индексе, который содержит все слова в каждом документе, который он индексирует в Интернете, а также указатели на расположение этих слов. Патент указывает на то, что он называет «препятствиями» на пути к получению свежих результатов. К ним относятся:

(1) расходы или накладные расходы, связанные с перестроением индекса документов каждый раз, когда репозиторий документов обновляется. Например, значительные накладные расходы часто связаны с построением небольших индексов из новых и обновленных документов и периодическим объединением малых индексов с основным индексом, и такие системы обычно страдают большими задержками между обновлениями документов и доступностью этих документов в индексе репозитория.

(2) сложность непрерывной обработки запросов к репозиторию документов при обновлении репозитория без больших накладных расходов. Одним из аспектов этого второго препятствия является необходимость синхронизации как потоков, выполняющих запросы, так и потоков, которые обновляют репозиторий документов с ключевыми структурами данных в репозитории данных. Необходимость синхронизировать потоки запросов и потоки обновления репозитория может стать существенным препятствием для эффективной работы репозитория документов, если обновления документов выполняются часто, что, в свою очередь, является препятствием для поддержания актуальности репозитория документов.

Чтобы перейти к патенту и прочитать все, вот ссылка на него:

Система и метод тредмейлинга документов для обновления документов в репозитории документов и восстановления дискового пространства из недействительных документов
Изобретатели: Майкл Берроуз и Джеффри А. Дин.
Цессионарий: Google Inc.
Патент США 7,617,226
Выдано: 10 ноября 2009 г.
Подана: 10 февраля 2006 г.

Абстрактный

В репозитории токенов хранятся документы в виде последовательности токенов. Репозиторий tokenspace, а также инвертированный индекс для репозитория tokenspace использует структуру данных, которая имеет первый и второй конец и позволяет вставлять на втором конце и удалять из внешнего интерфейса. Документ в репозитории tokenspace обновляется путем вставки обновленной версии в репозиторий на втором конце и аннулирования более ранней версии. Недействительные документы не удаляются сразу; они указываются в списке сборки мусора для последующей сборки мусора. Репозиторий tokenspace предназначен для передачи недействительных документов во внешний интерфейс, после чего они могут быть удалены, а их пространство для хранения восстановлено.

Беговая дорожка

Когда я прочитал этот патент, одно из слов, которое привлекло мое внимание, было «беговая дорожка», которое использовалось для описания того, как данные обрабатываются в индексе Google:

Поскольку удаление может быть выполнено только с данными во внешнем интерфейсе, периодически данные в ячейках «непрерывно обрабатываются». То есть действительные данные из внешнего интерфейса копируются в серверную часть, а исходные допустимые данные из внешнего интерфейса удаляются. По мере того, как действительные данные из внешнего интерфейса перемещаются в серверную часть, данные в ячейках между внешним интерфейсом и сервером логически перемещаются во внешний интерфейс, где они могут быть удалены при необходимости. Таким образом, беговая дорожка помогает восстановить пространство памяти, которое занято данными (иногда называемыми устаревшими данными), которые больше не действительны. Дополнительная информация, касающаяся беговой дорожки, описана ниже со ссылкой на фиг. 13-15.

Остальная часть патента содержит более подробную информацию о том, как работает эта система индексации, и после ее прочтения я обнаружил, что задавался вопросом, говорит ли он о кофеине и используется ли кофеин в Google. За последние несколько дней назад представитель Google Гэри Иллис сделал несколько загадочных твитов, в которых упоминался индексатор Google Caffeine таким образом, который, казалось, указывал на то, что он по-прежнему важен и все еще используется Google:

Гэри Иллис Кофеин Твиты