A atualização do Groundhog acabou de acontecer no Google?
Publicados: 2017-02-08
Uma história que foi publicada no Search Engine Land alguns dias atrás nos informou sobre um possível novo algoritmo no Google: a atualização não confirmada do algoritmo do Google pode ser melhor para descontar links e spam. Antes de ler aquele post, eu tinha acabado de ler uma nova patente do Google, e o post me lembrou da patente. A patente foi concedida em 31 de janeiro de 2017, e é possível que o que está descrito na patente seja o que as pessoas estavam vivenciando na atualização relatada no Search Engine Land.
O algoritmo por trás da patente é baseado em classificações que envolvem quantos recursos podem ser vinculados a um recurso que pode ser classificado (como a patente do PageRank de Stanford). Historicamente, no Google, uma página que possui um grande número de recursos vinculados a ela pode ter uma classificação mais elevada do que outras páginas que possuem uma quantidade menor de recursos vinculados a ela. Mas e se o Google decidisse olhar mais de perto esses recursos e rebaixar parte do peso do ranking transmitido por eles? Vimos indicações de que o Google pode fazer algo parecido com a Patente do Surfista Razoável, que tinha links transmitindo diferentes quantidades de PageRank. Outra maneira de alterar a quantidade de PageRank que pode ser passada junto com um link pode ser baseada na quantidade de tráfego que um recurso pode receber de links e os tempos de permanência do tráfego desses links, sejam eles cliques curtos, cliques médios ou cliques longos.
Esta abordagem de vinculação também pode considerar outros aspectos dos links, como o texto âncora de um link apontando para um recurso de origem, que será considerado como um n-grama e atribuirá uma pontuação de origem para esse texto âncora usado para vincular a uma página .
Esta foi uma declaração interessante que encontrei na primeira vez que li a patente recém-concedida:
As classificações de resultados de pesquisa podem ser ajustadas com base na propensão de uma consulta de pesquisa para exibir resultados de pesquisa relacionados a spam. A ponderação das contagens de links de recursos em um processo de classificação pode ser reduzida para consultas de pesquisa que têm uma alta propensão para revelar resultados de pesquisa relacionados a spam para reduzir a distorção nas classificações de recursos causada por alguns recursos tendo um número desproporcionalmente grande de links em comparação com o número de seleções dos links.
A patente diz-nos que tem uma série de vantagens na sua utilização que podem fazer valer a pena utilizá-la, incluindo o desconto de alguns links nas classificações das páginas às quais está ligada.
Vantagens deste processo patenteado
1) Os resultados da pesquisa de recursos podem ser classificados com mais precisão usando dados relativos aos links para os recursos e as seleções desses links.
2) Uma pontuação de seed pode ser determinada para um recurso com base no número de links para o recurso contido em outros recursos e uma série de seleções desses links.
3) Recursos de origem que incluem links para recursos que possuem um número desproporcional de links em relação ao número de seleções, conforme indicado pelas pontuações iniciais para esses recursos, podem ser identificados.
4) Os links desses recursos de origem identificados podem ser descontados em um processo de classificação que classifica os recursos com base no número de links para o recurso.
5) Os recursos para os quais os dados relativos aos links estão indisponíveis ou insuficientes podem ser pontuados usando dados relativos aos recursos que incluem um link para o recurso.
A patente sobre a qual estou escrevendo pode ser encontrada aqui, e vale a pena dedicar algum tempo a:
Determinando uma medida de qualidade para um recurso
Inventores: Hyung-Jin Kim, Paul Haahr, Kien Ng, Chung Tin Kwok, Moustafa A. Hammad e Sushrut Karanjkar
Cessionário: Google
Patente dos Estados Unidos: 9.558.233
Concedido: 31 de janeiro de 2017
Arquivado: 31 de dezembro de 2012
Resumo:
Métodos, sistemas e aparelhos, incluindo programas de computador codificados em um meio de armazenamento de computador, para determinar uma medida de qualidade para um recurso. Em um aspecto, um método inclui determinar uma pontuação de semente para cada recurso de semente em um conjunto. A pontuação de seed para um recurso de seed pode ser baseada em vários recursos que incluem um link para o recurso de seed e várias seleções dos links. Um conjunto de recursos de origem é identificado. Uma pontuação de origem é determinada para cada recurso de origem. A pontuação de origem para um recurso de origem é baseada na pontuação de semente para cada recurso de semente vinculado ao recurso de origem. Os recursos referenciados na origem são identificados. Uma pontuação de recurso é determinada para cada recurso referenciado de origem. A pontuação do recurso para um recurso referenciado à origem pode ser baseada na pontuação de cada recurso de origem que inclui um link para o recurso referenciado à origem.
Rebaixamento com base em um grande número de links que não produzem muito tráfego
Esta foi outra passagem da patente que me impressionou porque apontava para resultados potencialmente prejudiciais para links que não correspondiam às expectativas que poderiam ser mantidas para eles:
Um sistema pode determinar uma medida de qualidade para um determinado recurso da web com base no número de outros recursos vinculados a um determinado recurso da web e na quantidade de tráfego que o recurso recebe. Por exemplo, um processo de classificação pode classificar uma primeira página da web que possui um grande número de outras páginas da web com link para a primeira página da web mais alto do que uma página da web com um número menor de páginas da web com link. No entanto, alguns recursos podem estar vinculados a um grande número de outros recursos, enquanto recebem pouco tráfego dos links. Por exemplo, uma entidade pode tentar burlar o processo de classificação incluindo um link para o recurso em outra página da web. Esse grande número de links pode distorcer a classificação dos recursos. Para evitar tal distorção, o sistema pode avaliar a “incompatibilidade” entre o número de recursos de vinculação e o tráfego gerado para o recurso a partir dos recursos de vinculação. Se um recurso está vinculado a um número de recursos desproporcional em relação ao tráfego recebido pelo uso desses links, esse recurso pode ser rebaixado no processo de classificação.
Como o tráfego pode ser determinado por causa de um link?
A avaliação dos recursos pode ser realizada por um processo “pull-push”. Em um exemplo de processo pull-push, uma pontuação de semente é determinada para cada um de um conjunto de recursos de semente para os quais dados de tráfego e link suficientes estão disponíveis. A pontuação de seed para um determinado recurso de seed é baseada no número de recursos de origem vinculados ao recurso de seed e na quantidade de tráfego gerado para o recurso a partir dos recursos de origem. Em algumas implementações, a pontuação da semente para um recurso específico é a proporção entre o número de seleções de links para o recurso específico e o número de recursos de origem que ligam para o recurso específico.
Essas pontuações iniciais são “puxadas” para os recursos de origem e usadas para determinar uma pontuação de origem para cada recurso de origem. Em algumas implementações, a pontuação de origem de um recurso de origem é baseada na pontuação de seed para cada recurso de seed ao qual o recurso de origem está vinculado. Essas pontuações de origem podem ser usadas para classificar cada recurso de origem como sendo uma "fonte qualificada" ou uma "fonte não qualificada".
Links de fontes que podem ser consideradas não qualificadas podem então ser descontados.
Recursos relacionados ao spam
Algumas consultas tendem a produzir mais spam do que outras. A patente aponta para um grupo em particular:
Por exemplo, os editores de muitos sites de compartilhamento de vídeo tentam manipular as classificações criando links para os sites, resultando em um número desproporcionalmente grande de links em comparação com o número de seleções, enquanto os sites de notícias nacionais normalmente não tentam tal manipulação.
Para consultas que costumam produzir maiores quantidades de spam, os cliques de seleção podem receber mais valor neste cálculo de links em comparação com o tráfego enviado por esses links:
Para consultas que têm uma alta propensão para revelar páginas da web relacionadas a spam, o sistema pode colocar um peso maior nas contagens de seleção para os resultados da pesquisa e um peso menor nas contagens de links de recursos para os resultados da pesquisa ao classificar os resultados da pesquisa. Portanto, pode-se dizer que o sistema "confia" em que o clique conta mais do que o link do recurso conta para consultas de pesquisa que têm uma tendência para revelar páginas da web relacionadas a spam.
O Índice de qualidade da seleção pode ser baseado no tempo de permanência
Parte do processo envolvido no cálculo de uma pontuação de qualidade para recursos envolve a determinação de uma pontuação de semente para um recurso de semente. Isso pode começar com a identificação de uma contagem de recurso de link para o recurso semente. Isso pode ser feito observando o número de recursos que incluem um link para o recurso inicial.
O próximo aspecto envolve a identificação de uma contagem de seleção para o recurso inicial. Esta contagem de seleção para o recurso de semente pode ser baseada em um número de vezes que os links para o recurso de semente que estão incluídos em outros recursos foram selecionados.
Uma pontuação de qualidade de seleção é determinada para pelo menos uma parte das seleções dos links para o recurso semente. A pontuação de qualidade de seleção para uma seleção é uma medida de qualidade para a seleção e pode ser usada para descontar seleções de baixa qualidade ao determinar a pontuação de semente para o recurso de semente.
Isso traz de volta as memórias do livro de Steven Levy, chamado In the Plex, no qual ele afirmou que uma métrica que costumava ser tratada com uma perspectiva positiva pelas pessoas do Google era aquela que eles chamavam de "The Long Click".
A patente nos diz:
A pontuação de qualidade de seleção pode ser maior para uma seleção que resulta em um longo tempo de permanência (por exemplo, maior que um período de tempo limite) do que a pontuação de qualidade de seleção para uma seleção que resulta em um tempo de permanência curto (por exemplo, menos que um tempo limite período). Como as seleções de link geradas automaticamente são frequentemente de curta duração, considerar o tempo de permanência na determinação da pontuação de seed pode ser responsável por essas seleções de link falsas.
A patente também nos diz que algum comportamento de seleção histórica pode indicar que as seleções foram feitas por usuários reais, em vez de algum processo automatizado.
Recursos com pontuações de recursos relativamente baixas podem ser rebaixados nas classificações, e recursos com pontuações de recursos altas podem ser aumentados nas classificações.
Aprendizado
A patente fornece muito mais detalhes do que eu tenho neste post, e é uma leitura altamente recomendada. É o primeiro que me lembro que tentou criar algum tipo de pontuação de qualidade para links que apontam para páginas na web e determinar quanto peso eles deveriam repassar. A patente do surfista razoável era diferente, pois determinava quanto peso um link poderia transmitir com base na probabilidade de que fosse importante com base nos recursos envolvidos em como (e onde) era apresentado em uma página.
Mencionei no Twitter que escreveria sobre o post do Search Engine Land que mencionei no início deste post, e que tinha um palpite sobre o que pode ter sido implementado que resultaria na alteração do algoritmo do Google que uma série de as pessoas notaram. Tive uma sugestão de Jonathan Hochman de que considerasse me referir a ela como a Atualização do Groundhog, considerando o momento, e que parecia entrar em vigor no início de fevereiro. Esta patente foi concedida no último dia de janeiro e, embora pudesse ter sido implementada antes disso, é possível que também pudesse ter sido implementada no início de fevereiro.
O que aconteceu algoritmicamente no Google foi uma ponderação dos recursos de vinculação com base no tráfego associado a eles ou se estavam ou não associados a resultados de spam?

