Modèle de brevet de classement de recherche basé sur de grands ensembles de données mis à jour

Publié: 2018-08-22

Modèle de classement de recherche et grands ensembles de données

Suivant un aspect cohérent avec les principes de l'invention, un procédé de classement des documents est proposé. Le procédé peut comprendre la création d'un modèle de classement de recherche qui prédit une probabilité qu'un document soit sélectionné et l'apprentissage du modèle de classement à l'aide d'un ensemble de données qui comprend des dizaines de millions d'instances.

En 2011, j'ai écrit sur un brevet qui avait été accordé à Google en 2007, sur la création d'un modèle de classement de recherche qui utilise une très grande quantité de données, sur les requêtes, les documents sur le Web et les chercheurs. Le post que j'ai écrit à ce sujet était Google et les modèles de données à grande échelle comme Panda, et la version du brevet sur laquelle j'ai écrit à l'époque était le classement des documents basés sur de grands ensembles de données.

Ce brevet modèle Search Rankings a été mis à jour, grâce à l'utilisation d'un brevet de continuation, pour la troisième fois. Les deux brevets de continuation précédents n'ont pas été accordés, mais ce dernier l'a été, et il peut être trouvé sur le lien sous ce paragraphe. La description semble être la même que dans la version originale qui a été déposée en 2003. Les revendications ont été réécrites en profondeur et valent la peine d'être examinées car les nouvelles capturent les efforts déployés pour ce brevet. La version la plus récente du brevet des classements de recherche est disponible à l'adresse :

Classement des documents sur la base de grands ensembles de données
Inventeurs : Jeremy Bem, Georges R. Harik, Joshua L. Levenberg, Noam M. Shazeer et Simon Tong
Cessionnaire : Google LLC
Brevet américain : 10 055 461
Attribué : 21 août 2018
Déposé : 31 juillet 2015

Résumé

Un système classe les documents sur la base, au moins en partie, d'un modèle de classement. Le modèle de classement peut être généré pour prédire la probabilité qu'un document soit sélectionné. Le système peut recevoir une requête de recherche et identifier des documents relatifs à la requête de recherche. Le système peut ensuite classer les documents sur la base, au moins en partie, du modèle de classement et former des résultats de recherche pour la requête de recherche à partir des documents classés.

Revendications mises à jour dans le modèle de brevet des classements de recherche

Il vaut la peine de comparer les revendications de la première version de ce brevet de classement de recherche à la dernière, pour avoir une idée de l'ampleur de son changement. La lecture de l'article que j'ai publié plus tôt sur la première version peut également être utile pour comprendre ce qu'elle couvre. J'inclus ici des copies de la première revendication de chacun car elles présentent un contraste assez important dans ce à quoi les brevets s'appliquent.

Dans la version originale du brevet, la première revendication est beaucoup plus courte et n'est pas du tout aussi détaillée. Il nous parle de :

1. Procédé mis en œuvre par ordinateur, comprenant : la création d'un modèle de classement qui prédit une probabilité qu'un document soit sélectionné en : stockant des informations associées à une pluralité de recherches antérieures, en déterminant une probabilité antérieure de sélection basée, au moins en partie, sur les informations associées aux recherches antérieures, et générant le modèle de classement sur la base, au moins en partie, de la probabilité de sélection antérieure ; entraîner le modèle de classement à l'aide d'un ensemble de données qui comprend environ des dizaines de millions d'instances ; identifier des documents relatifs à une requête de recherche ; notation des documents sur la base, au moins en partie, du modèle de classement ; former des résultats de recherche pour la requête de recherche à partir des documents notés ; et la sortie des résultats de la recherche.

Comparez cette affirmation à celle de la dernière version du brevet du modèle de classement de recherche, qui est beaucoup plus détaillée :

Ce qui est revendiqué est:

1. Un procédé mis en œuvre par ordinateur comprenant : la réception, par un système de recherche distribué, d'une collection de données d'apprentissage comprenant une pluralité d'instances d'apprentissage qui identifient chacune un premier document respectif sélectionné par un utilisateur particulier lorsque le premier document a été identifié dans les résultats de recherche fournis par le système de recherche à l'utilisateur particulier en réponse à une requête de recherche particulière émise par l'utilisateur particulier ; partitionner la collecte de données d'apprentissage sur une pluralité de dispositifs informatiques du système de recherche distribué ; générer, par le système de recherche distribué, un modèle de classement qui produit une probabilité qu'un utilisateur particulier sélectionne un document particulier lorsqu'il est identifié par un ou plusieurs résultats de recherche fournis en réponse à une requête de recherche particulière soumise par l'utilisateur particulier, y compris le traitement, par chaque dispositif informatique de la pluralité de dispositifs informatiques, des instances d'apprentissage attribuées au dispositif informatique, comprenant : la sélection, par le dispositif informatique, d'une condition candidate, la condition candidate spécifiant des valeurs pour une ou plusieurs caractéristiques d'utilisateur, une ou plusieurs caractéristiques de requête, et une ou plusieurs caractéristiques de document, envoyant, par le dispositif informatique, à chaque autre dispositif informatique de la pluralité de dispositifs informatiques, une demande de calcul de statistiques locales pour la condition candidate, recevant, par le dispositif informatique de chaque autre dispositif informatique d'un ou plusieurs autres dispositifs informatiques, des statistiques calculées respectives pour la condition candidate calculées par l'autre de calcul vice-utiliser des valeurs d'instances d'apprentissage locales attribuées à l'autre dispositif informatique, en calculant, par le dispositif informatique, un poids pour la condition candidate en fonction des statistiques calculées reçues d'un ou plusieurs autres dispositifs informatiques pour la condition candidate ; déterminer, par le dispositif informatique, qu'une nouvelle règle comprenant la condition candidate et le poids calculé doit être ajoutée au modèle de classement, et en réponse, ajouter la nouvelle règle au modèle de classement et se fournir, par le dispositif informatique, l'une à l'autre dispositif informatique de la pluralité de dispositifs informatiques, une indication que la nouvelle règle comprenant la condition candidate et le poids calculé doit être ajoutée au modèle de classement ; recevoir une requête de recherche soumise par un premier utilisateur ; obtenir une pluralité de résultats de recherche qui satisfont la requête de recherche, dans lequel chaque résultat de recherche identifie un document respectif d'une pluralité de documents ; déterminer une ou plusieurs caractéristiques du premier utilisateur et une ou plusieurs caractéristiques de la requête de recherche soumise par le premier utilisateur ; utiliser la ou les caractéristiques du premier utilisateur et la ou les caractéristiques de la requête de recherche en entrée du modèle de classement pour calculer, pour chaque document identifié par les résultats de la recherche, une probabilité respective que le premier utilisateur sélectionne le document lorsque fourni en réponse à la requête de recherche ; et classer la pluralité de résultats de recherche sur la base d'une probabilité calculée respective pour chaque document, la probabilité calculée pour chaque document étant une probabilité que le premier utilisateur sélectionne le document lorsqu'il est fourni en réponse à la requête de recherche.

La revendication nous indique que le modèle de classement des recherches implique des fonctionnalités sur les utilisateurs, les requêtes et les documents classés. Voici quelques-unes des caractéristiques identifiées dans les nouvelles revendications :

  • Une langue du premier utilisateur
  • Une ou plusieurs requêtes précédentes émises par le premier utilisateur
  • Nombre de fois où le premier utilisateur a accédé à un document particulier
  • Un langage de la requête
  • Un ou plusieurs termes de la requête
  • Un ou plusieurs deuxièmes documents que l'utilisateur particulier n'a pas sélectionnés
  • Données représentant une position du premier document sélectionné dans un ordre des résultats de recherche fournis en réponse à la requête particulière
  • Un certain nombre de documents classés au-dessus du premier document sélectionné dans les résultats de recherche fournis à l'utilisateur particulier en réponse à la requête de recherche particulière
  • Un emplacement du premier utilisateur
  • Il y a d'autres revendications dans la nouvelle version du brevet qui sont devenues beaucoup plus longues et qui méritent d'être examinées et étudiées.

    La première version du brevet nous dit qu'elle prête attention à de nombreuses instances différentes de données divisées en triplets sur la différence entre un chercheur, une requête et un document. Comme je l'ai dit dans mon premier post sur le brevet original :

    Dans le premier brevet de Google, le modèle en cours de construction examinait une combinaison de données des utilisateurs, les requêtes qu'ils utilisaient et les documents qu'ils pouvaient ou non avoir sélectionnés. Chacune de ces combinaisons est appelée « instance. Une instance est un « triple » de données : (u, q, d), où u correspond aux informations de l'utilisateur, q correspond aux données de requête de l'utilisateur et d correspond aux informations de document relatives aux pages renvoyées par les données de requête.

    À retenir sur la mise à jour du brevet du modèle de classement de recherche

    Google a récemment eu une grande mise à jour de base, comme décrit dans Google Confirms Broad Core Algorithm Update: The Facts & Advice. Nous savons que Google met à jour ses principaux algorithmes de recherche, peut-être 2 fois par jour, depuis longtemps. Nous ne savons pas quand les mises à jour qui sont reflétées dans la nouvelle version de ce brevet de modèle de classement de recherche peuvent avoir été appliquées, mais elles l'ont peut-être été parce qu'en tant que brevet de continuation, cela refléterait idéalement les changements apportés au processus derrière le brevet, qui aurait pu être mis en place sur l'algorithme au fil du temps. Si Google utilisait cette approche pour classer les pages, cela pourrait être considéré comme faisant partie de l'algorithme de recherche de base. Ce brevet prend en compte une très grande quantité de données impliquant les requêtes et les documents des utilisateurs pour déterminer les classements de recherche.