Utilisez-vous l'indexation basée sur des phrases Google ?

Publié: 2017-05-18

L'indexation basée sur des phrases peut aider une page à devenir plus pertinente pour des termes de requête spécifiques avec la présence de phrases concomitantes liées à ces requêtes et un texte d'ancrage pointant vers cette page à l'aide de phrases connexes. L'indexation basée sur des phrases est quelque chose sur lequel Google travaille depuis au moins 2004.

Quand Anna Lynne Patterson a écrit l'article Why Writing Your Own Search Engine is Hard, elle avait créé peu de temps auparavant l'un des plus grands moteurs de recherche du Web, sous le nom de Recall, qui indexait plus de 30 milliards de pages sur Internet. Archiver. Elle a fini par rejoindre Google peu de temps après et a commencé à y déposer des brevets sur l'indexation par phrase. J'ai écrit sur certains des brevets qu'elle a déposés :

02/10/2006 – Déplacez-vous sur le pagerank : Google regarde des phrases ?
19/05/2006 – Google vise 100 milliards de pages ?
29/12/2006 – Récupération d'informations basée sur des phrases et détection de spam
16/09/2008 – Brevet d'indexation basé sur les phrases Google accordé
15/03/2009 – Quelles sont les meilleures phrases pour votre site Web ?
04/07/2010 – Phrasification et révision de l'indexation basée sur les phrases de Google
19/12/2011 - 10 brevets SEO les plus importants, partie 5 - Indexation basée sur des phrases
05/08/2016 – Modélisation thématique à l'aide de mots apparentés dans des documents et des textes d'ancrage

Je sais que c'est beaucoup à vous lancer au début d'un article de blog. Si vous souhaitez en savoir plus sur ce sujet, vous reviendrez à la liste ci-dessus et visiterez certains de ces messages précédents. Je ne vous ai pas dit qu'Anna Lynne Patterson avait quitté Google à un moment donné pour démarrer Cuil, un concurrent de Google qui a malheureusement échoué, et a été réembauchée par Google après que Cuil a fermé ses portes en tant que vice-président de la recherche chez Google.

Aujourd'hui, Google a obtenu un brevet de continuation pour un brevet initialement déposé en 2007, ce qui m'a convaincu lors de la première publication que Google avait adopté l'indexation par phrase. C'est parce que la façon dont un système d'indexation basé sur des phrases est décrit comme fonctionnant semble avoir beaucoup de sens pour indexer quelque chose d'aussi grand et complexe que le World Wide Web.

Le brevet est disponible sur :

Architecture du serveur d'indexation à l'aide de listes de publication de phrases à plusieurs niveaux et partitionnées
Inventeurs : Pei Cao, Nadav Eiron, Soham Mazumdar, Anna L. Patterson, Russell Power et Yonatan Zunger
Cessionnaire : Google Inc.
Brevet américain 9 652 483
Attribué : 16 mai 2017
Déposé : 23 novembre 2015

Résumé:

Un système de recherche d'informations utilise des phrases pour indexer, récupérer, organiser et décrire des documents. Les phrases sont extraites de la collection de documents. Les documents sont indexés en fonction de leurs phrases incluses, à l'aide de listes de publication de phrases. Les listes de publication de phrases sont stockées dans un cluster de serveurs d'index. Les listes de publication de phrases peuvent être hiérarchisées en groupes et fractionnées en partitions. Les phrases d'une requête sont identifiées en fonction des phrasés possibles. Un programme de requêtes basé sur les phrases est créé à partir des phrases et optimisé pour réduire les coûts de traitement des requêtes et de communication. L'exécution du programme de requête est gérée pour réduire ou éliminer davantage les opérations de traitement de requête au niveau de divers serveurs d'index.

J'avais commencé à lire des brevets pour avoir une idée du fonctionnement des moteurs de recherche, et celui-ci décrit des index inversés et des listes de publication composées de termes individuels, puis publie des listes composées de phrases significatives. Le dernier article de ma liste ci-dessus sur « Modélisation thématique » concerne un brevet d'indexation basé sur des phrases déposé en 2012, intitulé « Informations sur les phrases externes intégrées dans un système de récupération d'informations d'indexation basé sur des phrases », qui explique comment la présence de certains des phrases sur une page peuvent être utilisées pour prédire l'apparition d'une autre phrase. Je recommande fortement de lire ce dernier brevet et sa description du fonctionnement d'un moteur de recherche basé sur des phrases. Il y a quelques défis à essayer de mettre en place un index basé sur des phrases, comme le brevet nous l'indique ici :

Le problème ici est que les documents d'indexation des systèmes conventionnels sont basés sur des termes individuels plutôt que sur des concepts. Les concepts sont souvent exprimés par des expressions telles que « matière noire », « président des États-Unis » ou des expressions idiomatiques comme « sous le temps » ou « une douzaine de centimes ». Au mieux, certains systèmes antérieurs indexeront des documents concernant un ensemble prédéterminé et minimal de phrases "connues", qu'un opérateur humain sélectionne typiquement. L'indexation des phrases est généralement évitée en raison des exigences de calcul et de mémoire perçues pour identifier toutes les phrases possibles, disons trois, quatre ou cinq ou plus. Par exemple, en supposant que cinq mots quelconques pourraient constituer une phrase et qu'un grand corpus aurait au moins 200 000 termes uniques, il y aurait approximativement 3,2 x 10 26 phrases possibles, nettement plus que n'importe quel système existant pourrait stocker ou sinon manipuler par programme. Le problème supplémentaire est que les expressions entrent et sortent continuellement du lexique en fonction de leur utilisation, bien plus fréquemment que de nouveaux mots individuels sont inventés. De nouvelles expressions sont toujours générées à partir de la technologie, des arts, des événements mondiaux et du droit. D'autres expressions diminueront dans l'utilisation au fil du temps.

Certains systèmes de recherche d'informations existants tentent de fournir une recherche de concepts en utilisant des modèles de cooccurrence de mots individuels. Dans ces systèmes, une recherche sur un mot, tel que « Président », récupère également les documents contenant d'autres mots qui apparaissent fréquemment avec « Président », tels que « Blanc » et « Maison ». Bien que cette approche puisse produire des résultats de recherche ayant des documents conceptuellement liés au niveau des mots individuels, elle ne capture généralement pas les relations d'actualité entre les phrases co-occurrentes elles-mêmes.

Le problème d'avoir besoin d'autant de stockage pour tout capturer sur un système d'indexation basé sur des phrases se produit toujours lorsque vous essayez d'indexer des termes individuels :

Un autre problème avec les systèmes d'indexation à base de termes individuels existants réside dans l'agencement des ordinateurs serveurs pour accéder à l'index. Dans un système d'indexation conventionnel pour les corpus à grande échelle comme Internet, l'index comprend les listes d'affichage pour plus de 200 000 termes uniques. Chaque liste de publication de termes peut contenir des centaines, des milliers et souvent des millions de documents. L'index est généralement divisé entre un grand nombre de serveurs d'index, dans lesquels chaque serveur d'index contiendra un index qui comprend tous les termes uniques, et pour chacun de ces termes, une partie de la liste de publication. Un système d'indexation typique comme celui-ci peut avoir plus de 1 000 serveurs d'indexation dans cet arrangement.

Lorsqu'une requête donnée avec un certain nombre de termes est traitée dans un tel système d'indexation, il devient nécessaire d'accéder à tous les serveurs d'indexation pour chaque requête. Ainsi, même une simple requête d'un seul mot nécessite que chacun des serveurs d'index (par exemple, 1 000 serveurs) détermine s'il contient des documents contenant le mot. Étant donné que tous les serveurs d'indexation doivent traiter la requête, le temps de traitement global de la requête du serveur d'indexation le plus lent est limité.

Ce sont les problèmes qui ont été perçus comme existant lorsque l'idée de l'indexation basée sur les phrases a été développée. Pourtant, si ces problèmes pouvaient être résolus, il y aurait des avantages potentiels à utiliser l'indexation basée sur des phrases. Ce brevet explique comment les serveurs peuvent être configurés pour indexer et rechercher sur le Web en fonction de phrases.

Les avantages? Imaginez une page sur les « stades de baseball ». Il y a de bonnes chances qu'il inclue des phrases telles que « monticule du lanceur », « Stands de concession » et « Première base ». Ces phrases pourraient être identifiées comme étant pertinentes pour cette page sur un stade de baseball. Ces phrases ont souvent tendance à coexister sur des pages très bien classées sur les stades de baseball. Le brevet peut marquer des phrases telles que décrites ici :

Dans un aspect, un système de récupération d'informations comprend un système d'indexation et une architecture de serveur d'indexation basée sur des phrases. Les phrases sont extraites d'une collection de documents pour identifier les phrases réelles utilisées dans la langue par les utilisateurs au lieu de simples combinaisons de mots. Généralement, cela se fait en collectant un grand nombre de séquences de mots qui sont des phrases candidates basées sur les caractéristiques structurelles des documents. Chaque phrase candidate se voit attribuer un score de phrase de document pour chaque document dans lequel elle apparaît, d'une manière qui reflète sa probabilité d'être une phrase réelle en fonction de sa position dans un document et de la mesure dans laquelle elle apparaît indépendamment ou conjointement avec d'autres phrases candidates dans le document. De plus, chaque phrase candidate est traitée pour identifier toutes les sous-phrases qu'elle contient, qui sont notées de manière similaire.

Les scores d'expression de document de chaque phrase candidate sont ensuite combinés à travers les documents dans lesquels il apparaît pour créer un score combiné. Les scores de phrase de document et le score combiné pour une phrase candidate sont évalués pour déterminer dans quelle mesure la collection de documents prend en charge l'utilisation de la phrase candidate dans une phrase réelle. Généralement, une phrase candidate est retenue lorsqu'elle est fortement appuyée par au moins un document ; par exemple, le maximum de ses scores d'expression de document dépasse un seuil prédéterminé. Une phrase candidate est également retenue lorsqu'elle est modérément supportée, comme indiqué par le fait d'avoir un score de phrase combinée au-dessus d'un deuxième seuil prédéterminé. Cela montre que la phrase candidate a un usage suffisamment répandu pour être considérée comme une phrase réelle. Enfin, une phrase candidate est également retenue lorsqu'elle est largement soutenue, comme l'indique la phrase recevant un score minimum dans un certain nombre de documents. A titre d'exemple, le système peut inclure environ 100 000 à 200 000 phrases, qui représenteront de vraies phrases utilisées dans des documents, plutôt que de simples combinaisons de mots.

À emporter

L'utilisation d'une méthode comme celle-ci pour identifier les expressions réelles, leur fréquence d'apparition et leur emplacement dans les documents est compliquée. Ce système d'indexation basé sur des phrases couvre quelques brevets différents, notamment la génération de scores en fonction de la fréquence à laquelle certaines phrases apparaissent dans différents documents et en tant que texte d'ancrage pointant vers des documents et identifiant le spam à l'aide d'une indexation basée sur des phrases. Il y a un bon nombre de brevets connexes qui ont été développés depuis 2004. C'est suffisamment complexe pour qu'on en parle peu. Oui, vous pouvez rechercher fréquemment les expressions qui ont tendance à apparaître sur les pages les mieux classées pour des termes spécifiques, et cela vous donnera un indice sur les expressions significatives que vous devriez idéalement inclure sur votre page à propos de ces termes.

J'ai écrit sur l'index inversé de Google et j'ai mentionné cet article parce que le brevet sur lequel j'ai écrit fournit un index inversé des expressions sur le Web, montrant que Google suit probablement ces expressions.