Indexation basée sur les phrases Google mise à jour

Publié: 2018-06-06

Google a mis à jour l'un de ses brevets les plus importants aujourd'hui

Ce que couvre l'indexation basée sur des phrases

Lorsqu'une page couvre un sujet tel que "Président des États-Unis", il y a de fortes chances qu'elle inclue des phrases significatives sur cette page qui pourraient prédire de quoi parle la page, telles que "Maison Blanche" ou "Rose Garden » ou « Conférence de presse » ou « Secrétaire d'État ». Si vous voyez des phrases comme celle-ci sur une page, il peut s'agir d'indices sur le sujet de cette page, qui décrit le fonctionnement de l'indexation basée sur les phrases de Google. C'est une approche dont on pourrait dire qu'elle utilise des thèmes sémantiques pour montrer le sens des pages. Pour ce faire, il comprend et indexe les phrases significatives qui coexistent sur les pages les mieux classées pour un terme.

Juste parce que Google a un brevet… Mise à jour de l'indexation basée sur des phrases

Matt Cutts a publié cette vidéo il y a environ 5 ans, et il nous y dit que juste parce que Google a un brevet sur quelque chose ; cela ne veut pas dire qu'ils l'utilisent

Mais, lorsque Google procède à la mise à jour d'un brevet, il peut l'utiliser

Je regarde beaucoup de brevets de Google, et certains arguments peuvent être avancés qui nous disent qu'ils peuvent utiliser un brevet mis à jour d'indexation basé sur des phrases délivré aujourd'hui.

1. Il existe plus de 20 brevets connexes accordés à Anna Patterson et attribués à Google concernant des processus impliquant une indexation basée sur des phrases.

2. Le brevet semble être un brevet important et j'ai déjà appelé l'un des 10 brevets de référencement les plus importants de tous les temps :

10 brevets de référencement les plus importants, partie 5 - Indexation basée sur des phrases

3. Le processus derrière le brevet est sorti pour la première fois lorsqu'il a été déposé au bureau des brevets en 2004, et ils ont ajouté au processus au moins 20 brevets qui ajoutent des fonctionnalités, telles que la lutte contre le spam et la génération d'extraits, et donnez-nous des détails sur la façon dont il est probablement mis en œuvre dans l'index de Google. J'ai écrit pour la première fois à propos de ce brevet en 2006, dans le post, Move over PageRank : Google’s looking at phrases ?

4. Un brevet de continuation est une version d'un brevet où la description du brevet n'a pas été modifiée, mais les revendications du brevet ont été mises à jour, pour refléter les changements dans le processus que le brevet vise à protéger. La date de dépôt du brevet reste la date du dépôt initial, mais la possibilité d'exclure d'autres personnes de l'utilisation du processus à l'origine du brevet devient basée sur les nouvelles revendications. Les revendications du brevet ont considérablement changé de 2004 à 2018. L'une des principales raisons de modifier ces revendications est de refléter le processus réel en place (si le brevet est utilisé) derrière le brevet.

Il vaut la peine de comparer les trois premières revendications de l'original à la version du brevet qui a été délivrée aujourd'hui. Voici les trois premières revendications de l'original :

1. Procédé de sélection de documents dans une collection de documents en réponse à une requête, le procédé comprenant : la réception d'une requête ; identifier une pluralité de phrases dans la requête, dans laquelle au moins une phrase est une phrase à plusieurs mots ; identifier une extension de phrase d'au moins une des phrases identifiées, et sélectionner des documents dans la collection de documents contenant une phrase d'un ensemble comprenant des phrases dans la requête et l'extension de phrase.

2. Procédé selon la revendication 1, dans lequel la sélection de documents comprend : la combinaison d'une liste de diffusion d'une phrase identifiée et une liste de diffusion de l'extension de phrase de la phrase identifiée pour former une liste de diffusion combinée, et la sélection de documents apparaissant dans la liste de diffusion combinée et les listes d'affichage des autres phrases identifiées.
3. Procédé de sélection de documents dans une collection de documents en réponse à une requête, le procédé comprenant : la réception d'une requête ; identifier une phrase incomplète dans la requête ; remplacer la phrase incomplète par une extension de phrase et sélectionner des documents dans la collection de documents contenant l'extension de phrase.

Ce qui semble être différent des revendications plus anciennes par rapport aux plus récentes qui suivent, c'est qu'elles fournissent plus d'informations sur la façon dont l'indexation basée sur des phrases peut désormais classer les pages.

Ce qui est revendiqué est:
1. Procédé mis en œuvre par ordinateur comprenant : l'obtention, à partir d'un index à base de phrases pour un moteur de recherche Internet, d'une liste de documents à partir d'une collection de documents disponibles via Internet qui contiennent une première phrase, la première phrase étant pertinente pour une requête ; pour chaque document de la liste : déterminer, à l'aide d'informations sur les phrases associées stockées dans l'index pour chaque document de la liste de documents, si le document comprend une ou plusieurs phrases associées de la première phrase, chaque phrase associée ayant une cooccurrence réelle taux de la phrase associée et de la première phrase dans la collection de documents qui dépasse un taux de cooccurrence attendu de la phrase associée et de la première phrase dans la collection de documents ; classer les documents dans la liste sur la base d'une quantité d'expressions apparentées déterminée pour chaque document, de sorte que les documents avec plus d'expressions apparentées soient mieux classés que les documents ayant moins d'expressions apparentées ; et sélectionner au moins certains des documents les mieux classés à inclure dans un résultat de la requête.

2. Procédé selon la revendication 1, dans lequel déterminer si le document comprend une ou plusieurs phrases apparentées de la première phrase comprend : l'accès à une liste d'affichage pour la première phrase, la liste d'affichage comprenant, pour chaque document identifié dans la liste d'affichage, une indication du nombre de phrases associées présentes dans le document.
3. Procédé selon la revendication 1, dans lequel un document avec une faible fréquence de termes de requête mais une pluralité de phrases apparentées pour la première phrase se classe plus haut qu'un document avec une fréquence plus élevée de termes de requête mais sans phrases apparentées.

Le brevet mis à jour par indexation basée sur des phrases peut être consulté à l'adresse :

Recherche basée sur des phrases dans un système de recherche d'informations
Inventeurs : Anna L. Patterson
Cessionnaire : Google LLC
Brevet américain : 9 990 421
Attribué : 5 juin 2018
Déposé : 2 février 2017

Résumé

Un système de recherche d'informations utilise des phrases pour indexer, récupérer, organiser et décrire des documents. Les phrases sont identifiées qui prédisent la présence d'autres phrases dans les documents. Les documents sont ensuite indexés en fonction de leurs phrases incluses. Les expressions et extensions d'expression associées sont également identifiées. Les phrases d'une requête sont identifiées et utilisées pour récupérer et classer les documents. Les expressions sont également utilisées pour regrouper les documents dans les résultats de la recherche, créer des descriptions de documents et éliminer les documents en double des résultats de la recherche et de l'index.

J'ai écrit un article il y a environ un an, en mettant l'accent sur l'indexation basée sur des phrases, Utilisez-vous l'indexation basée sur des phrases Google ?, qui couvre un brevet qui nous dit comment l'index inversé de Google a été mis à jour pour inclure des phrases - ce qui serait très coûteux entreprise, mais rendrait la méthode de ce premier brevet mis à jour sur l'indexation basée sur les phrases beaucoup plus efficace.

J'en ai également écrit un en 2016 intitulé Thematic Modelling Using Related Words in Documents and Anchor Text. Il nous indique comment les pages peuvent être amplifiées dans les résultats de recherche en fonction de l'utilisation de hits de corps (phrases associées dans le texte des pages) et d'ancrages (phrases associées utilisées comme texte d'ancrage pointé à partir d'une page pour laquelle des phrases associées ont été générées. ) Avec des classements définis plus en détail dans ce premier brevet d'indexation basée sur la phase, nous pouvons également voir des mises à jour d'autres brevets concernant l'indexation basée sur des phrases.

L'indexation basée sur des phrases semble-t-elle suffisamment intrigante pour que vous puissiez tester et rechercher davantage ?