Paten Model Peringkat Pencarian Berdasarkan Kumpulan Data Besar Diperbarui

Diterbitkan: 2018-08-22

Model Peringkat Pencarian dan Kumpulan Data Besar

Mengikuti satu aspek yang konsisten dengan prinsip-prinsip invensi, metode untuk menentukan peringkat dokumen disediakan. Metode ini dapat mencakup pembuatan model peringkat pencarian yang memprediksi kemungkinan bahwa dokumen akan dipilih dan pelatihan model peringkat menggunakan kumpulan data yang mencakup puluhan juta contoh.

Kembali pada tahun 2011, saya menulis tentang paten yang telah diberikan kepada Google pada tahun 2007, tentang membangun model peringkat pencarian yang menggunakan sejumlah besar data, tentang kueri, dokumen di Web, dan pencari. Posting yang saya tulis tentang itu adalah Google dan Model Data Skala Besar Seperti Panda, dan versi paten yang saya tulis saat itu adalah Peringkat dokumen berdasarkan kumpulan data besar.

Paten model Peringkat Pencarian itu telah diperbarui, melalui penggunaan paten lanjutan, untuk ketiga kalinya. Dua paten lanjutan sebelumnya tidak diberikan, tetapi yang terbaru ini telah diberikan, dan dapat ditemukan di tautan di bawah paragraf ini. Deskripsi tampaknya sama seperti dari versi asli yang diajukan pada tahun 2003. Klaim telah ditulis ulang secara ekstensif, dan layak untuk dilihat karena yang baru menangkap berapa banyak upaya yang telah dilakukan untuk paten ini. Versi terbaru dari paten peringkat pencarian dapat ditemukan di:

Peringkat dokumen berdasarkan kumpulan data besar
Penemu: Jeremy Bem, Georges R. Harik, Joshua L. Levenberg, Noam M. Shazeer, dan Simon Tong
Penerima tugas: Google LLC
Paten AS: 10.055.461
Diberikan: 21 Agustus 2018
Diarsipkan: 31 Juli 2015

Abstrak

Sebuah sistem peringkat dokumen berdasarkan, setidaknya sebagian, pada model peringkat. Model peringkat dapat dibuat untuk memprediksi kemungkinan bahwa suatu dokumen akan dipilih. Sistem dapat menerima permintaan pencarian dan mengidentifikasi dokumen yang berkaitan dengan permintaan pencarian. Sistem kemudian dapat membuat peringkat dokumen berdasarkan, setidaknya sebagian, pada model peringkat dan membentuk hasil pencarian untuk permintaan pencarian dari dokumen peringkat.

Klaim yang Diperbarui dalam Paten Model Peringkat Pencarian

Perlu membandingkan klaim dari versi paling awal dari paten peringkat pencarian ini dengan yang terbaru, untuk mengetahui seberapa besar perubahannya. Membaca posting yang saya buat tentang versi pertama sebelumnya juga dapat membantu untuk memahami apa yang dicakupnya. Saya menyertakan salinan klaim pertama dari masing-masing di sini karena mereka menyajikan cukup kontras dalam hal paten berlaku.

Dalam versi asli paten, klaim pertama jauh lebih pendek dan tidak mendetail sama sekali. Ini memberitahu kita tentang:

1. Metode yang diterapkan komputer, terdiri dari: membuat model peringkat yang memprediksi kemungkinan bahwa suatu dokumen akan dipilih dengan: menyimpan informasi yang terkait dengan sejumlah pencarian sebelumnya, menentukan probabilitas pemilihan sebelumnya berdasarkan, setidaknya sebagian, pada informasi yang terkait dengan pencarian sebelumnya, dan menghasilkan model peringkat berdasarkan, setidaknya sebagian pada probabilitas pemilihan sebelumnya; melatih model peringkat menggunakan kumpulan data yang mencakup sekitar puluhan juta instans; mengidentifikasi dokumen yang berkaitan dengan permintaan pencarian; penilaian dokumen berdasarkan, setidaknya sebagian, pada model peringkat; membentuk hasil pencarian untuk permintaan pencarian dari dokumen yang dicetak; dan menampilkan hasil pencarian.

Bandingkan klaim itu dengan yang ini dari versi terbaru dari paten model peringkat pencarian, yang jauh lebih detail:

Yang diklaim adalah:

1. Metode yang diterapkan komputer yang terdiri dari: menerima, oleh sistem pencarian terdistribusi, kumpulan data pelatihan yang terdiri dari sejumlah contoh pelatihan yang masing-masing mengidentifikasi masing-masing dokumen pertama yang dipilih oleh pengguna tertentu ketika dokumen pertama diidentifikasi dalam hasil pencarian yang disediakan oleh sistem pencarian kepada pengguna tertentu sebagai tanggapan atas permintaan pencarian tertentu yang dikeluarkan oleh pengguna tertentu; mempartisi pengumpulan data pelatihan melalui sejumlah perangkat komputasi dari sistem pencarian terdistribusi; menghasilkan, oleh sistem pencarian terdistribusi, model peringkat yang menghasilkan kemungkinan bahwa pengguna tertentu akan memilih dokumen tertentu ketika diidentifikasi oleh satu atau lebih hasil pencarian yang diberikan sebagai tanggapan atas permintaan pencarian tertentu yang diajukan oleh pengguna tertentu, termasuk pemrosesan, oleh setiap perangkat komputasi dari sejumlah perangkat komputasi, contoh pelatihan yang ditetapkan ke perangkat komputasi, termasuk: memilih, oleh perangkat komputasi, kondisi kandidat, di mana kondisi kandidat menentukan nilai untuk satu atau lebih fitur pengguna, satu atau lebih fitur kueri, dan satu atau lebih fitur dokumen, mengirim, oleh perangkat komputasi, ke satu sama lain perangkat komputasi dari sejumlah perangkat komputasi, permintaan untuk menghitung statistik lokal untuk kondisi kandidat, menerima, oleh perangkat komputasi dari satu sama lain perangkat komputasi dari satu atau lebih perangkat komputasi lainnya, statistik yang dihitung masing-masing untuk kondisi kandidat yang dihitung oleh de komputasi lainnya wakil menggunakan nilai contoh pelatihan lokal yang ditetapkan ke perangkat komputasi lain, menghitung, oleh perangkat komputasi, bobot untuk kondisi kandidat menurut statistik yang dihitung yang diterima dari satu atau lebih perangkat komputasi lain untuk kondisi kandidat; menentukan, oleh perangkat komputasi, bahwa aturan baru yang terdiri dari kondisi kandidat dan bobot yang dihitung harus ditambahkan ke model peringkat, dan sebagai tanggapan, menambahkan aturan baru ke model peringkat dan menyediakan, oleh perangkat komputasi, satu sama lain perangkat komputasi dari sejumlah perangkat komputasi, indikasi bahwa aturan baru yang terdiri dari kondisi kandidat dan bobot yang dihitung harus ditambahkan ke model peringkat; menerima permintaan pencarian yang diajukan oleh pengguna pertama; memperoleh sejumlah hasil pencarian yang memenuhi permintaan pencarian, di mana setiap hasil pencarian mengidentifikasi dokumen masing-masing dari sejumlah dokumen; menentukan satu atau lebih fitur dari pengguna pertama dan satu atau lebih fitur dari permintaan pencarian yang diajukan oleh pengguna pertama; menggunakan satu atau lebih fitur pengguna pertama dan satu atau lebih fitur kueri penelusuran sebagai masukan ke model peringkat untuk dihitung, untuk setiap dokumen yang diidentifikasi oleh hasil penelusuran, kemungkinan masing-masing pengguna pertama akan memilih dokumen saat disediakan sebagai tanggapan atas permintaan pencarian; dan memberi peringkat pada pluralitas hasil pencarian berdasarkan kemungkinan yang dihitung masing-masing untuk setiap dokumen, kemungkinan yang dihitung untuk setiap dokumen adalah kemungkinan bahwa pengguna pertama akan memilih dokumen ketika diberikan sebagai tanggapan atas permintaan pencarian.

Klaim tersebut memberi tahu kita bahwa model peringkat pencarian melibatkan fitur tentang pengguna, tentang kueri, dan tentang peringkat dokumen. Ini hanya beberapa fitur yang diidentifikasi dalam klaim baru:

  • Bahasa pengguna pertama
  • Satu atau lebih kueri sebelumnya yang dikeluarkan oleh pengguna pertama
  • Beberapa kali pengguna pertama mengakses dokumen tertentu
  • Bahasa kueri
  • Satu atau lebih istilah kueri
  • Satu atau lebih dokumen kedua yang tidak dipilih oleh pengguna tertentu
  • Data yang mewakili posisi dokumen pertama yang dipilih dalam urutan hasil pencarian yang diberikan sebagai tanggapan atas kueri tertentu
  • Sejumlah dokumen berperingkat di atas dokumen pertama yang dipilih dalam hasil pencarian yang diberikan kepada pengguna tertentu sebagai tanggapan atas permintaan pencarian tertentu
  • Lokasi pengguna pertama
  • Ada beberapa klaim lain dalam versi paten yang lebih baru yang telah menjadi lebih lama, dan yang membuatnya layak untuk dilihat dan diperhatikan.

    Versi pertama dari paten memberi tahu kami bahwa ia memperhatikan banyak contoh berbeda dari data yang dipecah menjadi tiga kali lipat tentang bagaimana pencari dan kueri dan dokumen berbeda. Seperti yang saya katakan di posting pertama saya tentang paten asli:

    Dalam paten Google pertama, model yang dibangun melihat kombinasi data dari pengguna, kueri yang mereka gunakan, dan dokumen yang mungkin mereka pilih atau tidak. Masing-masing kombinasi ini disebut sebagai “instance. Instance adalah "tiga" data: (u, q, d), di mana u adalah informasi pengguna, q adalah data kueri dari pengguna, dan d adalah informasi dokumen yang berkaitan dengan halaman yang dikembalikan dari data kueri.

    Ambil Away tentang Pembaruan Paten Model Peringkat Pencarian

    Google baru-baru ini memiliki pembaruan inti yang besar, seperti yang dijelaskan dalam Google Confirms Broad Core Algorithm Update: The Facts & Advice. Kami tahu bahwa Google telah memperbarui algoritme pencarian intinya, mungkin 2 kali sehari, untuk waktu yang lama. Kami tidak tahu kapan pembaruan yang tercermin dalam versi baru dari paten model peringkat pencarian ini mungkin telah diterapkan, tetapi itu mungkin karena sebagai paten lanjutan, idealnya akan mencerminkan perubahan pada proses di balik paten, yang dapat diterapkan pada algoritma dari waktu ke waktu. Jika Google menggunakan pendekatan ini untuk menentukan peringkat halaman, ini mungkin dianggap sebagai bagian dari algoritma pencarian inti. Paten ini mempertimbangkan sejumlah besar data yang melibatkan kueri dan dokumen pengguna untuk menentukan peringkat pencarian.