Trust Metrics no Google

Publicados: 2019-05-02

Olhando as métricas de confiança no Google

Confiar! Que função ele pode ter na classificação das páginas do Google? Ele é usado de algumas maneiras diferentes pelos mecanismos de pesquisa e, especificamente, pelo Google. Uma patente sobre confiança e classificação acaba de ser atualizada no Google, o que é um bom momento para olhar as métricas de confiança que foram desenvolvidas no Google.

Pensei em compartilhar algumas métricas de confiança que o Google pode estar usando ou já usou no passado, antes de discutir as alterações na patente que mencionei

Uma menção de confiança que vem rapidamente à mente é o que está nas Diretrizes do avaliador de qualidade do Google, que aponta Experiência-Confiabilidade e Autoridade como três coisas que eles desejam que os avaliadores procurem ao revisar sites. Somos informados lá:

7.2.1 Menor EAT
Um dos critérios mais importantes da classificação PQ é o EAT. Conhecimento do criador do MC e autoridade ou
a confiabilidade da página ou site é extremamente importante para que uma página atinja bem o seu propósito.
Se o EAT de uma página for baixo o suficiente, os usuários não podem ou não devem usar o MC da página. Isso é especialmente verdadeiro para YMYL
tópicos. Se a página for altamente inexperiente, não autorizada ou não confiável, ela não alcançará seu propósito.
Importante: a classificação mais baixa deve ser usada se a página for altamente inexperiente, não autorizada ou não confiável.

Outra métrica de confiança que você pode não estar ciente de ser baseada na confiança é uma versão do PageRank, descrita em uma patente registrada pelo Google, que nos fala sobre as páginas de classificação com base na proximidade ou distância de um conjunto de sites de sementes confiáveis . O resumo desta patente nos diz como as classificações são calculadas sob esta abordagem:

Durante a operação, o sistema recebe um conjunto de páginas para serem classificadas, onde o conjunto de páginas é interligado por links. O sistema também recebe um conjunto de páginas iniciais que incluem links de saída para o conjunto de páginas. O sistema então atribui comprimentos aos links com base nas propriedades dos links e nas propriedades das páginas anexadas aos links. Em seguida, o sistema calcula as distâncias mais curtas do conjunto de páginas iniciais para cada página no conjunto de páginas com base no comprimento dos links entre as páginas. Em seguida, o sistema determina uma pontuação de classificação para cada página no conjunto de páginas com base nas distâncias mais curtas calculadas. O sistema então produz uma classificação para o conjunto de páginas com base nas pontuações da classificação para o conjunto de páginas.

uma estrutura de gráfico de links de páginas da web

Possivelmente, o mais famoso dos Trust Metrics, e muitas vezes acidentalmente atribuído ao Google, ou incorretamente citado como semelhante ao que o Google usa, é do concorrente do Google, Yahoo, que publicou um artigo com Stanford sobre algo que eles se referiram como Trustrank. O TrustRank desenvolvido pelo Yahoo é completamente diferente da abordagem baseada em confiança desenvolvida pelo Google. Além de escrever um artigo sobre o TrustRank, eles também entraram com um pedido de patente (detecção de spam baseada em link), que impediria o Google de usar legalmente a mesma abordagem. O resumo dessa patente:

Um método implementado por computador para classificar ocorrências de pesquisa em um conjunto de resultados de pesquisa. O método implementado por computador inclui receber uma consulta de um usuário e gerar uma lista de ocorrências relacionadas à consulta, onde cada uma das ocorrências tem uma relevância para a consulta, onde as ocorrências têm um ou mais documentos vinculados de estímulo apontando para as ocorrências, e onde a promoção de documentos vinculados afetam a relevância das ocorrências para a consulta. O método associa uma métrica a cada um de pelo menos um subconjunto de ocorrências, a métrica sendo representativa do número de documentos vinculados de incentivo que apontam para cada um de pelo menos um subconjunto de ocorrências e que aumentam artificialmente a relevância das ocorrências. O método então compara a métrica, que é representativa do tamanho de um farm de spam apontando para o hit, com um valor limite, processa a lista de hits para formar uma lista modificada com base em parte na comparação e transmite a lista modificada para o usuário.

O TrustRank do Yahoo é uma forma de identificar spam e não necessariamente de classificar as páginas da maneira que a abordagem mais recente do PageRank mencionada acima pode fazer. A patente do Yahoo fornece mais detalhes:

TrustRank é uma técnica de análise de links relacionada ao PageRank. TrustRank é um método para separar páginas boas e confiáveis ​​da Web do spam. O TrustRank é baseado na presunção de que bons documentos na Web raramente levam a spam. TrustRank envolve duas etapas, uma de seleção de sementes e outra de propagação de pontuação. O TrustRank de um documento é uma medida da probabilidade de o documento ser um documento confiável (ou seja, não spam).

TrustRank do Yahoo

Existem outras maneiras pelas quais o Google tentou usar pessoas em quem confiava para agirem como especialistas quando se tratava de páginas da web, por exemplo, o projeto Sidewiki do Google. Não é uma métrica de confiança, mas o objetivo era permitir que as pessoas anotassem as páginas e as adicionasse, concordasse com elas ou as criticasse.

O projeto Sidewiki foi encerrado pelo Google. Mesmo que não esteja mais em uso, é interessante pela forma como trata a confiança e a perícia. Conforme descrito nesta postagem do Google Blog: Ajude e aprenda com outras pessoas enquanto você navega na web: Google Sidewiki:

E se todos, de um especialista local a um médico renomado, tivessem uma maneira fácil de compartilhar suas ideias com você sobre qualquer página da web? E se você pudesse adicionar seus insights para outras pessoas que estão de passagem?

E o Google também desenvolveu uma métrica de confiança que não é baseada em links, mas a precisão e exatidão dos fatos não devem ser surpreendentes

Um white paper do Google foi lançado em 2015, nos contando sobre algo chamado confiança baseada em conhecimento, que usa um conjunto de 1.000 fatos e compara sites para ver quantos desses fatos eles acertaram em seu site. O artigo era Confiança baseada em conhecimento: estimando a confiabilidade das fontes da web. Xin Luna Dong, que é considerado o inventor da abordagem de confiança baseada no conhecimento, fez uma apresentação chamada Não deixando dados valiosos para trás: as ideias malucas e os negócios. Ele explora a confiança baseada no conhecimento e a compara ao PageRank, que é capturado neste slide da apresentação também:

Confiança baseada em conhecimento vs. PageRank

Existe uma versão anterior da patente TrustRank do Google, sobre a qual escrevi em 2009 no post Google Trust Rank Patent Outloked. Mais sobre isso mais adiante neste post.

Google Trustrank usando Google CSE

Sob as patentes do CSE (mecanismo de pesquisa personalizado) baseado em confiança, somos informados sobre o problema que pretendem resolver:

Um problema inerente ao design dos mecanismos de pesquisa é que a relevância dos resultados da pesquisa para um usuário específico depende de fatores que são altamente dependentes da intenção do usuário na pesquisa - é por isso que eles estão pesquisando - bem como das circunstâncias do usuário, dos fatos sobre a necessidade de informação do usuário. Assim, dada a mesma consulta por dois usuários diferentes, um determinado conjunto de resultados da pesquisa pode ser relevante para um usuário e irrelevante para outro, inteiramente devido às diferentes intenções e necessidades de informação. A maioria das tentativas de resolver o problema de inferir a intenção de um usuário normalmente depende de indicadores relativamente fracos, como preferências do usuário estáticas ou métodos predefinidos de reformulação de consulta que nada mais são do que suposições educadas sobre o que o usuário está interessado com base nos termos da consulta. Abordagens como essas não podem capturar totalmente a intenção do usuário porque essa intenção é altamente variável e depende de vários fatos situacionais que não podem ser extrapolados de termos de consulta típicos.

Portanto, o valor de um conjunto de resultados de pesquisa depende da intenção de um pesquisador que realiza essa pesquisa. Como essas patentes podem tentar resolver esse problema? A solução pode estar em olhar para sites que foram criados por especialistas em um tópico que incluem anotações sobre por que algo pode estar vinculado, o que é descrito na patente aqui:

Em parte devido à incapacidade dos motores de busca contemporâneos de encontrar consistentemente informações que satisfaçam as necessidades de informações do usuário, e não apenas os termos de consulta do usuário, os usuários frequentemente procuram sites que oferecem análise adicional ou compreensão do conteúdo disponível na Internet. Para discussão, esses sites são chamados de sites de conhecimento verticais. Alguns sites de conhecimento vertical, normalmente sites de comunidade para usuários de interesses comuns, permitem que os usuários criem links para conteúdo na Internet e fornecem rótulos ou tags que descrevem o conteúdo. Por exemplo, um site pode permitir que um usuário crie um link para o site de um fabricante de automóveis e poste um comentário ou descrição sobre um determinado carro oferecido pelo fabricante; da mesma forma, esse site pode permitir que um usuário crie um link para uma reportagem no site de uma organização de notícias e publique um comentário sobre a reportagem. Esses e outros sites de conhecimento vertical também podem hospedar a análise e comentários de especialistas ou outras pessoas com conhecimento, experiência ou um ponto de vista em campos específicos, que novamente podem comentar sobre o conteúdo encontrado na Internet. Por exemplo, um site operado por um especialista em câmeras digitais e dedicado a câmeras digitais normalmente inclui análises de produtos, orientações sobre como comprar uma câmera digital, bem como links para sites de fabricantes de câmeras, anúncios de novos produtos, artigos técnicos, análises adicionais ou outras fontes de conteúdo. Para auxiliar o usuário, o especialista pode incluir comentários sobre o conteúdo vinculado, como rotular um determinado artigo técnico como "nível de especialista" ou uma avaliação específica como "avaliação profissional negativa" ou um anúncio de novo produto como "novo digital de 10 MP SLR ”. Um usuário interessado em um determinado ponto de vista, tipo de informação ou similar, então pesquisa dentro do domínio de tal site por artigos ou links que possuem certos rótulos ou comentários associados. Por exemplo, um usuário pode pesquisar o site de câmeras digitais mencionado acima para todas as análises de câmeras rotuladas como “SLR digital”.

Portanto, a patente está nos dizendo que pode usar anotações de um mecanismo de pesquisa personalizado como se fossem de especialistas em tópicos que esses mecanismos de pesquisa estão prestes a ganhar um senso de confiança (uma métrica ou pontuação de confiança) sobre os tópicos que podem ser anotados .

Quando comecei a ler esta patente, fiquei me perguntando se a confiança nas pessoas que criam rótulos em mecanismos de pesquisa personalizados se aplicava apenas aos resultados do mecanismo de pesquisa personalizado, ou se essa confiança também era aplicada de alguma forma aos resultados do mecanismo de pesquisa geral. A patente aponta esse problema ao nos dizer:

O problema continua sendo que quando o usuário retorna a um mecanismo de pesquisa geral, fora do site de conhecimento vertical, o usuário não consegue obter resultados de pesquisa que reflitam a confiabilidade dos próprios documentos ou a confiabilidade de qualquer comentário ou opinião que possa estar associado a os documentos de resultado da pesquisa. Portanto, nenhuma das informações adicionais baseadas em reputação que estão associadas aos usuários no site de conhecimento vertical está disponível para o mecanismo de pesquisa geral para fornecer resultados de pesquisa mais significativos para outros usuários.

A patente nos diz que ela pode tentar entender o quanto os usuários (ou pesquisadores) confiam nas entidades que aplicaram rótulos anotando outras páginas, para determinar quanta classificação de confiança aplicar aos resultados no mecanismo de pesquisa geral. A patente descreve algumas maneiras pelas quais pode identificar o quanto os usuários podem confiar em uma entidade que pode rotular os resultados da pesquisa. Aqui está um exemplo:

Conforme indicado acima, o sistema também pode usar um rastreador da web para examinar páginas da web para localizar informações que indicam qual usuário confia em uma entidade específica. Ao examinar páginas da web, o rastreador da web pode procurar vários relacionamentos, incluindo: (1) links da página da web do usuário para páginas da web pertencentes a entidades confiáveis; (2) uma lista de confiança que identifica entidades em que o usuário confia; ou (3) uma lista personalizada que identifica os usuários que confiam no proprietário da página personalizada.

O TrustRank para uma consulta específica (e rótulo) pode ser agregado em mais de um mecanismo de pesquisa personalizado. A patente também nos diz:

As classificações de confiança das entidades associadas aos rótulos correspondentes são agregadas para criar uma classificação de confiança agregada. Assim, neste exemplo, as classificações de confiança dos três diferentes especialistas seriam agregadas em uma única classificação de confiança associada ao rótulo específico “revisão profissional” para o documento de revisão. Essa agregação é realizada para cada etiqueta associada ao documento.

Resumindo, se você for um especialista em um tópico, poderá configurar um mecanismo de pesquisa personalizado em seu site usando o recurso de mecanismo de pesquisa personalizado do Google e incluir outros sites além do seu, além de rotular os resultados da pesquisa com refinamento rótulos.

Ao rotular as páginas de um determinado site, você pode estar indicando ao Google que confia nesse site, e ele pode ser impulsionado nos resultados de pesquisa com base em uma patente do Google TrustRank (o Google pode determinar se eles fazem isso com base em quanta confiança eles acreditam que você pode ter como uma entidade que rotula páginas em um CSE e se elas têm ou não anotações agregadas de várias entidades.

Esta versão mais recente da patente do CSE Trust, concedida esta semana, é uma patente de continuação, o que significa que o título e a descrição de ambas as patentes são os mesmos, mas as reivindicações de cada uma foram reescritas. Ele pode ser encontrado em:

Classificação dos resultados da pesquisa com base na confiança
Inventores: Ramanathan V. Guha
Cessionário: Google LLC
Patente dos EUA: 10.268.641
Concedido: 23 de abril de 2019
Arquivado: 29 de julho de 2014

Resumo

Um sistema de mecanismo de pesquisa fornece resultados de pesquisa que são classificados de acordo com uma medida de confiança associada a entidades que forneceram rótulos para os documentos nos resultados da pesquisa. Um mecanismo de pesquisa recebe uma consulta e seleciona documentos relevantes para a consulta. O mecanismo de pesquisa também determina os rótulos associados aos documentos selecionados e as classificações de confiança das entidades que forneceram os rótulos. As classificações de confiança são usadas para determinar os fatores de confiança dos respectivos documentos. Os fatores de confiança são usados ​​para ajustar as pontuações de recuperação de informações dos documentos. Os resultados da pesquisa são classificados com base nas pontuações de recuperação de informações ajustadas.

Reivindicações da patente TrustRank

A versão desta patente registrada em maio de 2006 também foi chamada de classificação de resultados de pesquisa com base na confiança

A versão da 1ª reivindicação da patente registrada em 2006:

1. Um método realizado por um aparelho de processamento de dados, o método compreendendo: receber uma consulta de pesquisa, a consulta de pesquisa compreendendo um termo de consulta e um termo de rótulo de consulta, o termo de rótulo de consulta sendo um identificador categórico; identificar um ou mais recursos em um conjunto de resultados de pesquisa responsivo à consulta de pesquisa, em que cada um dos um ou mais recursos tem um termo de rótulo correspondente associado que corresponde ao termo do rótulo da consulta e um termo do rótulo não correspondente associado que não corresponde à consulta termo de rótulo, cada termo de rótulo associado sendo o identificador categórico que descreve cada recurso e tendo sido associado ao recurso por uma entidade respectiva; determinar, para cada um dos um ou mais recursos: uma classificação de confiança da entidade que associou o termo de rótulo correspondente associado ao recurso, em que a classificação de confiança indica se um usuário confia no termo de rótulo correspondente associado do recurso, e aumentando a relevância pontuação de cada recurso que possui o termo de rótulo correspondente associado com base na respectiva classificação de confiança, a pontuação de relevância indicando um grau de relevância entre o respectivo recurso e o termo de consulta; classificar cada um de um ou mais recursos no conjunto de resultados da pesquisa com base nas respectivas pontuações de relevância; anotar, com um nome da entidade respectiva que associou o termo de etiqueta correspondente a cada recurso, indícios que identificam cada recurso do conjunto de resultados de pesquisa classificado; e fornecer os indícios em uma resposta à consulta de pesquisa.

Esta é a primeira reivindicação da versão mais recente da patente:

Eu reivindico:

1. Método implementado por computador, caracterizado pelo fato de que compreende: fornecer, para exibição em um primeiro dispositivo de computação, uma interface de usuário associada a uma entidade particular, a interface de usuário que compreende (i) um controle interativo configurado para instruir um segundo dispositivo de computação a atribuir uma pontuação em resposta à interação do usuário com o controle interativo e (ii) uma interface para o usuário indicar tópicos para a entidade particular, a interface indicando uma pluralidade de tópicos correspondentes ao controle interativo; receber dados indicando (i) interação do usuário com o controle interativo por um usuário e (ii) um ou mais tópicos selecionados pelo usuário entre a pluralidade de tópicos correspondentes ao controle interativo; em resposta ao recebimento dos dados indicando (i) interação do usuário com o controle interativo pelo usuário e (ii) um ou mais tópicos selecionados pelo usuário entre a pluralidade de tópicos correspondentes ao controle interativo, enviando, através de uma rede, dados que indicam um ou mais tópicos que foram selecionados pelo usuário entre a pluralidade de tópicos correspondentes ao controle interativo, em que os dados fazem com que o segundo dispositivo de computação atribua uma pontuação para o usuário em relação à entidade particular para aquele ou mais tópicos, a pontuação indicando, para um mecanismo de pesquisa, um grau em que o conteúdo que está (i) associado à entidade específica e (ii) relacionado a um ou mais tópicos é utilizado pelo mecanismo de pesquisa para gerar resultados de pesquisa em resposta às consultas do usuário; em resposta a uma consulta do usuário, obtendo um conjunto de resultados de pesquisa para a consulta, o conjunto de resultados de pesquisa sendo classificado pelo mecanismo de pesquisa com base, pelo menos em parte, na pontuação do usuário em relação à entidade específica para aquele ou mais tópicos que foram selecionados pelo usuário entre a pluralidade de tópicos correspondentes ao controle interativo, em que o conjunto de resultados de pesquisa compreende resultados de pesquisa em que cada um faz referência a um documento para o qual o texto de anotação foi enviado por uma ou mais entidades, e em que os resultados da pesquisa são classificados com base no texto de anotação e pontuações para o usuário em relação a uma ou mais entidades; e fornecer o conjunto de resultados de pesquisa classificados pelo mecanismo de pesquisa com base, pelo menos em parte, na pontuação do usuário em relação à entidade específica para um ou mais tópicos que foram selecionados pelo usuário entre a pluralidade de tópicos correspondentes ao controle interativo.

De acordo com esta nova reivindicação, está apontando os resultados da pesquisa que estão sendo classificados com base no texto de anotação e a pontuação do usuário em relação a uma ou mais entidades (que podem ter anotado esses resultados).

Eu queria verificar se havia páginas de suporte do Google que descreviam o ato de fazer anotações em sites para Mecanismos de pesquisa personalizados e encontrei esta página: Anotações: Definindo sites para pesquisar

Conclusões da patente do Google CSE Trustrank

Esse pode ser um bom motivo para configurar um mecanismo de pesquisa personalizado em um site e criar rótulos de anotação para os resultados dentro dele. Além de fazer isso, seria útil tornar provável que as pessoas confiassem em seu site com o CSE o suficiente para fazer coisas como um link para você ou listar seu site como confiável.

Métricas de confiança e pesquisa

Existem várias maneiras pelas quais o Google pode tentar encontrar confiabilidade e relacionamentos confiáveis ​​entre pesquisadores e proprietários de sites. Vemos exemplos nas descrições do EAT das diretrizes do avaliador de qualidade. Na versão mais recente do PageRank, que podem ser páginas de classificação com base em sua distância de um conjunto de sites semente confiável. Em uma pontuação de confiança baseada em conhecimento, que pode ser mais útil nos casos em que a correção tem mais valor do que a popularidade. Ou com base em anotações feitas nos Mecanismos de pesquisa personalizados do Google por pessoas em quem os pesquisadores podem ter demonstrado algum nível de confiança.

Construir confiança em seu site tem mais valor do que apenas como seu site pode ser classificado nos resultados de pesquisa. Se o seu site for um em que as pessoas confiam, elas podem encaminhá-las às pessoas, criar links para suas páginas e citar você como um especialista confiável.

Um passo para construir confiança é construir uma base sobre a qual as pessoas possam decidir quanta confiança podem depositar em você e, então, apoiar essa base com conteúdo razoável e bem informado. Pode ser necessário muito esforço para construir confiança, e a confiança pode evaporar-se rapidamente - mas vemos que é algo que os mecanismos de pesquisa e os visitantes das páginas da web valorizam