Arama Sıralaması Model Patenti Büyük Veri Kümelerine Dayalı Güncellendi

Yayınlanan: 2018-08-22

Arama Sıralaması Modeli ve Büyük Veri Kümeleri

Buluşun ilkeleriyle tutarlı olan bir yönü takiben, belgeleri sıralamak için bir yöntem sağlanır. Yöntem, bir belgenin seçilme olasılığını tahmin eden bir arama sıralama modeli oluşturmayı ve on milyonlarca örneği içeren bir veri seti kullanarak sıralama modelini eğitmeyi içerebilir.

2011'de, 2007'de Google'a verilmiş bir patent hakkında, çok büyük miktarda veri kullanan bir arama sıralama modeli oluşturma, sorgular, Web'deki belgeler ve arama yapanlar hakkında yazmıştım. Bununla ilgili yazdığım yazı Google ve Panda Gibi Büyük Ölçekli Veri Modelleri idi ve o zamanlar yazdığım patentin versiyonu, büyük veri kümelerine dayalı Belgeleri Sıralamaktı.

Bu Arama Sıralaması model patenti, üçüncü kez bir devam patenti kullanılarak güncellendi. Daha önceki iki devam patenti verilmedi, ancak bu sonuncusu verildi ve bu paragrafın altındaki bağlantıda bulunabilir. Açıklama, 2003'te dosyalanan orijinal versiyondakiyle aynı görünüyor. İddialar kapsamlı bir şekilde yeniden yazıldı ve incelemeye değer çünkü yenileri bu patent için ne kadar çaba harcandığını gösteriyor. Arama sıralaması patentinin en yeni versiyonu şu adreste bulunabilir:

Belgeleri büyük veri kümelerine göre sıralama
Mucitler: Jeremy Bem, Georges R. Harik, Joshua L. Levenberg, Noam M. Shazeer ve Simon Tong
Atanan: Google LLC
ABD Patenti: 10.055.461
Verildi: 21 Ağustos 2018
Dosya: 31 Temmuz 2015

Soyut

Bir sistem, belgeleri en azından kısmen bir sıralama modeline göre sıralar. Sıralama modeli, bir belgenin seçilme olasılığını tahmin etmek için oluşturulabilir. Sistem bir arama sorgusu alabilir ve arama sorgusu ile ilgili belgeleri belirleyebilir. Sistem daha sonra belgeleri en azından kısmen sıralama modeline dayalı olarak sıralayabilir ve sıralanmış belgelerden arama sorgusu için arama sonuçları oluşturabilir.

Arama Sıralaması Modelinde Güncellenmiş İddialar Patent

Ne kadar değiştiğine dair bir fikir edinmek için, bu arama sıralaması patentinin en eski versiyonundaki iddiaları en son versiyonuyla karşılaştırmaya değer. Daha önce ilk sürüm hakkında yaptığım gönderiyi okumak, neyi kapsadığını anlamak için de yardımcı olabilir. Her birinden ilk iddianın kopyalarını buraya ekliyorum çünkü bunlar patentlerin ne için geçerli olduğu konusunda oldukça zıtlık arz ediyor.

Patentin orijinal versiyonunda, ilk iddia çok daha kısadır ve hiç ayrıntılı değildir. Bize şunları anlatır:

1. Bilgisayarla uygulanan bir yöntem olup, şunları içerir: bir belgenin seçilme olasılığını tahmin eden bir sıralama modelinin yaratılması: çok sayıda önceki arama ile ilişkili bilgilerin depolanması, en azından kısmen, aşağıdakilere dayalı olarak bir önceki seçim olasılığının belirlenmesi. önceki aramalarla ilgili bilgiler ve en azından kısmen önceki seçim olasılığına dayalı olarak sıralama modelinin oluşturulması; yaklaşık on milyonlarca örneği içeren bir veri seti kullanarak sıralama modelinin eğitilmesi; bir arama sorgusuyla ilgili belgeleri tanımlama; belgeleri en azından kısmen sıralama modeline dayalı olarak puanlamak; puanlanan belgelerden arama sorgusu için arama sonuçlarının oluşturulması; ve arama sonuçlarının çıktısını almak.

Bu iddiayı, çok daha ayrıntılı olan arama sıralamaları modeli patentinin en son sürümünden bununla karşılaştırın:

İddia edilen şey:

1. Bilgisayarla uygulanan bir yöntem olup, şunları içerir: dağıtılmış bir arama sistemi tarafından, sağlanan arama sonuçlarında ilk belge tanımlandığında belirli bir kullanıcı tarafından seçilen ilgili ilk belgeyi tanımlayan çok sayıda eğitim örneğini içeren bir eğitim verisi koleksiyonunun alınması belirli bir kullanıcı tarafından verilen belirli bir arama sorgusuna yanıt olarak arama sistemi tarafından belirli kullanıcıya; dağıtılmış arama sisteminin çok sayıda bilgisayar cihazı üzerinde eğitim verilerinin toplanmasının bölümlendirilmesi; dağıtılmış arama sistemi tarafından, belirli bir kullanıcının belirli bir kullanıcı tarafından gönderilen belirli bir arama sorgusuna yanıt olarak sağlanan bir veya daha fazla arama sonucu tarafından tanımlandığında belirli bir belgeyi seçme olasılığını üreten bir sıralama modeli oluşturmak, çok sayıda bilgisayar cihazının her bir bilgisayar cihazı, bilgisayar cihazına atanan eğitim örnekleri: bilgisayar cihazı tarafından bir aday koşulun seçilmesi, burada aday koşul bir veya daha fazla kullanıcı özelliği, bir veya daha fazla sorgu özelliği için değerleri belirtir, ve bir veya daha fazla belge özelliği, bilgisayar cihazı tarafından birbirine çok sayıda bilgisayar cihazının bilgisayar cihazına gönderme, bilgisayar cihazı tarafından birinin diğer bilgisayar cihazından alınması, aday koşul için yerel istatistiklerin hesaplanması için bir talep. veya daha fazla başka bilgisayar cihazı, diğer hesaplama araçları tarafından hesaplanan aday koşul için ilgili hesaplanmış istatistikler diğer bilgisayar cihazına atanan yerel eğitim örneklerinin değerlerini kullanarak, bilgisayar cihazı tarafından aday koşul için bir veya daha fazla diğer bilgisayar cihazından alınan hesaplanmış istatistiklere göre aday koşul için bir ağırlık hesaplayarak; aday koşulu ve hesaplanan ağırlığı içeren yeni bir kuralın sıralama modeline eklenmesi gerektiğini hesaplama cihazı tarafından belirlenmesi ve buna karşılık olarak yeni kuralın sıralama modeline eklenmesi ve bilgisayar cihazı tarafından birbirine sağlanması aday koşulu ve hesaplanan ağırlığı içeren yeni kuralın sıralama modeline eklenmesi gerektiğinin bir göstergesi olan çok sayıda bilgisayar cihazının bilgisayar cihazı; bir ilk kullanıcı tarafından gönderilen bir arama sorgusunun alınması; arama sorgusunu karşılayan çok sayıda arama sonucunun elde edilmesi, burada her arama sonucu çok sayıda belgenin ilgili bir belgesini tanımlar; birinci kullanıcının bir veya daha fazla özelliğinin ve birinci kullanıcı tarafından gönderilen arama sorgusunun bir veya daha fazla özelliğinin belirlenmesi; ilk kullanıcının bir veya daha fazla özelliğini ve arama sorgusunun bir veya daha fazla özelliğini hesaplamak için sıralama modeline girdi olarak kullanmak, arama sonuçları tarafından tanımlanan her belge için, ilk kullanıcının aşağıdaki durumlarda belgeyi seçme olasılığı. arama sorgusuna yanıt olarak sağlanan; ve her belge için ilgili hesaplanmış olasılığa dayalı olarak çok sayıda arama sonucunun sıralanması, her belge için hesaplanan olasılık, ilk kullanıcının arama sorgusuna yanıt olarak sağlandığında belgeyi seçme olasılığıdır.

İddia bize, arama sıralama modelinin kullanıcılar, sorgular ve sıralanan belgeler hakkında özellikler içerdiğini söylüyor. Bunlar, yeni iddialarda tanımlanan özelliklerden sadece birkaçı:

İlk kullanıcının dili
İlk kullanıcı tarafından verilen bir veya daha fazla önceki sorgu
İlk kullanıcının belirli bir belgeye birkaç kez eriştiği
Sorgunun bir dili
Sorgunun bir veya daha fazla terimi
Belirli bir kullanıcının seçmediği bir veya daha fazla ikinci belge
Belirli bir sorguya yanıt olarak sağlanan arama sonuçlarının sırasına göre seçilen ilk belgenin konumunu temsil eden veriler
Belirli bir arama sorgusuna yanıt olarak belirli bir kullanıcıya sağlanan arama sonuçlarında seçilen ilk belgenin üzerinde sıralanan bir dizi belge
İlk kullanıcının konumu

Patentin yeni versiyonunda çok daha uzun olan ve onları incelemeye ve dikkat etmeye değer kılan başka iddialar da var.

Patentin ilk versiyonu bize, bir araştırmacının ve bir sorgunun ve bir belgenin nasıl farklılaştığı konusunda üçe bölünmüş birçok farklı veri örneğine dikkat ettiğini söylüyor. Orijinal patentle ilgili ilk yazımda söylediğim gibi:

İlk Google patentinde, oluşturulmakta olan model, kullanıcılardan gelen verilerin, kullandıkları sorguların ve seçmiş olabilecekleri veya seçmemiş olabilecekleri belgelerin bir kombinasyonuna baktı. Bu kombinasyonların her birine "örnek" denir. Bir örnek, verilerin "üçlü"dür: (u, q, d), burada u kullanıcı bilgisidir, q kullanıcıdan gelen sorgu verisidir ve d, sorgu verisinden döndürülen sayfalarla ilgili belge bilgisidir.

Arama Sıralamaları Modeli Patentinin Güncellenmesi Hakkında Alıntılar

Google, Google Geniş Çekirdek Algoritma Güncellemesini Onaylıyor: Gerçekler ve Öneriler bölümünde açıklandığı gibi, yakın zamanda büyük bir çekirdek güncellemesi yaptı. Google'ın uzun süredir temel arama algoritmalarını günde muhtemelen 2 kez güncellediğini biliyoruz. Bu arama sıralaması model patentinin yeni versiyonuna yansıyan güncellemelerin ne zaman uygulanmış olabileceğini bilmiyoruz, ancak devam patenti olarak, ideal olarak patentin arkasındaki süreçteki değişiklikleri yansıtacağı için olmuş olabilir. zamanla algoritmaya yerleştirilebilirdi. Google bu yaklaşımı sayfaları sıralamak için kullanıyorsa, temel arama algoritmasının bir parçası olarak kabul edilebilir. Bu patent, arama sıralamalarını belirlemek için kullanıcıların sorgularını ve belgelerini içeren çok büyük miktarda veriyi dikkate alır.