Cafeína: Indexador do Google

Publicados: 2017-03-24

Cafeína Google

As atualizações do mecanismo de pesquisa do Google costumam ser eventos misteriosos, mas às vezes encontro informações nas patentes do Google que fornecem alguns insights sobre como algo funciona. Uma atualização do Google que visava tornar o Google muito mais rápido do que antes foi a atualização Caffeine, que foi anunciada oficialmente pelo Google em 2010 com este post: Nosso novo índice de pesquisa: Caffeine.

Se você fizer alterações no conteúdo de uma página da web, quanto tempo leva para que essas alterações cheguem ao índice do Google? Se você publicar uma nova página ou postagem de blog, quando isso se tornará parte do índice do Google como algo que pode ser consultado? Costumava levar algum tempo antes que o conteúdo adicionado à Web se tornasse algo pesquisável. O Google atualizaria seu índice, e muitos dados adicionados à web se tornariam questionáveis ​​em um movimento que foi referido por muitas pessoas como Google Dance. Em seguida, o Google apresentou uma abordagem que significava que as mudanças ocorriam nos resultados de pesquisa mais rapidamente, e o ex-chefe de Spam da Web do Google, Matt Cutts, se referiu a isso neste vídeo em que descreveu “Fluxo” que estava acontecendo nos resultados da Pesquisa Google:

O Google lançou atualizações com o objetivo de acelerar a indexação de conteúdo na web. Uma dessas atualizações foi chamada de atualização Big Daddy. Outro que aconteceu em 2009 foi referido como a atualização Caffeine. Um aspecto ligeiramente diferente está disponível neste artigo de jornal: Google Caffeine: o que realmente é

Recentemente, descobri uma patente que mostra como o Google poderia tornar seu índice de pesquisa muito mais rápido e decidi compartilhá-lo depois de ver a atualização Caffeine do Google sendo responsabilizada por muitas mudanças na forma como o conteúdo na web foi indexado ao longo dos anos - compartilhando esta patente pode dar às pessoas um pouco mais de compreensão de como o Google pode estar indexando páginas na web. Três patentes relacionadas foram registradas no mesmo dia. Eles fornecem uma visão interessante de como a cafeína pode operar. O que eles fazem é simplesmente isso:

As modalidades divulgadas referem-se geralmente a sistemas e métodos de processamento de dados e, em particular, a um repositório de documentos que suporta baixas latências desde quando um documento é atualizado até quando o documento está disponível para consultas e que requer pouca sincronização entre threads de consulta e threads de atualização de repositório .

Portanto, se você já se perguntou quanto tempo leva do ponto de publicação de algo na Web até o momento em que é adicionado ao índice do Google, isso depende da sincronização descrita nessas patentes.

O Google pesquisa o que é conhecido como índice invertido, que contém todas as palavras de cada documento que indexa na web, junto com indicadores para a localização dessas palavras. A patente aponta o que ela chama de “obstáculos” no fornecimento de novos resultados. Esses incluem:

(1) a despesa ou sobrecarga associada à reconstrução do índice do documento cada vez que o repositório de documentos é atualizado. Por exemplo, uma sobrecarga significativa é frequentemente associada à construção de pequenos índices a partir de documentos novos e atualizados e à fusão periódica dos pequenos índices com o índice principal, e tais sistemas normalmente sofrem longas latências entre as atualizações de documentos e a disponibilidade desses documentos no índice do repositório.

(2) a dificuldade de processar continuamente as consultas no repositório de documentos durante a atualização do repositório, sem incorrer em grande sobrecarga. Um aspecto desse segundo obstáculo é a necessidade de sincronizar os threads que executam as consultas e os threads que atualizam o repositório de documentos com as principais estruturas de dados no repositório de dados. A necessidade de sincronizar os threads de consulta e threads de atualização do repositório pode representar um obstáculo significativo para a operação eficiente do repositório de documentos se as atualizações de documentos forem realizadas com frequência, o que por sua vez é uma barreira para manter a atualização do repositório de documentos.

Para obter a patente e ler tudo, aqui está um link para ela:

Sistema de treadmilling de documentos e método para atualizar documentos em um repositório de documentos e recuperar espaço de armazenamento de documentos invalidados
Inventores: Michael Burrows e Jeffrey A. Dean
Cessionário: Google Inc.
Patente US 7.617.226
Concedido: 10 de novembro de 2009
Arquivado: 10 de fevereiro de 2006

Resumo

Um repositório de tokenspace armazena documentos como uma sequência de tokens. O repositório tokenspace, bem como o índice invertido para o repositório tokenspace, usa uma estrutura de dados que tem uma primeira e uma segunda extremidade e permite inserções na segunda extremidade e exclusões no front end. Um documento no repositório tokenspace é atualizado inserindo a versão atualizada no repositório na segunda extremidade e invalidando a versão anterior. Documentos inválidos não são excluídos imediatamente; eles são identificados em uma lista de coleta de lixo para posterior coleta de lixo. O repositório tokenspace é trabalhado para deslocar documentos invalidados para o front end, ponto no qual eles podem ser excluídos e seu espaço de armazenamento recuperado.

Esteira

Quando li esta patente, uma das palavras que me chamou a atenção foi "esteira", que era usada para descrever como os dados eram tratados no índice do Google:

Como a exclusão só pode ser feita para os dados no front end, periodicamente os dados nas células são "passados". Ou seja, os dados válidos no front end são copiados para o back end e os dados originais válidos no front end são excluídos. Conforme os dados válidos do front end são movidos para o back end, os dados nas células entre o front end e o back end são deslocados logicamente para o front end, onde podem ser excluídos, se necessário. Assim, a esteira auxilia na recuperação do espaço da memória ocupado por dados (às vezes chamados de dados obsoletos) que não são mais válidos. Mais informações sobre a esteira são descritas abaixo, em relação às FIGS. 13-15.

O resto da patente fornece mais detalhes sobre como esse sistema de indexação funciona e, depois de lê-lo, me perguntei se estava falando sobre a cafeína e se ela ainda estava sendo usada pelo Google. Nos últimos dias, o porta-voz do Google, Gary Illyes, fez alguns tweets enigmáticos que se referiam ao indexador do Google Caffeine de maneiras que pareciam indicar que ainda era importante e ainda estava sendo usado pelo Google:

Tweets de Gary Illyes Caffeine