Bagaimana Google Memproses Kueri: Sumber Daya Resolusi Entitas

Diterbitkan: 2017-07-18

Google Melakukan Resolusi Entitas untuk Memahami Entitas yang Dilihatnya di Kueri

Web dipenuhi dengan entitas – informasi tentang orang, tempat, dan benda. Mesin pencari dapat mengumpulkan pengetahuan tentang koneksi antar entitas. Dalam presentasinya, How Google Works, Paul Haahr dari Google mengatakan kepada kami bahwa Google akan mencoba mengidentifikasi entitas yang muncul dalam kueri. Presentasinya melibatkan lebih dari sekadar merayapi Web dan menemukan keberadaan tautan di halaman, dan direkomendasikan untuk ditonton.

Paten yang diberikan kepada Google pada 4 Juli berfokus pada keberadaan entitas dalam kueri dan memahaminya. Ini berfokus pada sesuatu yang disebut resolusi entitas atau apa yang mungkin diwakili oleh entitas dalam kueri. Ketika saya melihat paten, saya terkesan dengan jumlah referensi yang diajukan oleh pemohon paten bersama dengan paten, dan saya ingin membacanya. Saya pikir mereka juga layak untuk dibagikan kepada orang lain. Bukan untuk membuktikan poin tertentu atau untuk mengambil sikap atau pendapat tertentu, tetapi untuk memberi siapa pun yang mau meluangkan waktu membaca materi untuk melihat makalah dan penelitian terbaru yang melibatkan resolusi entitas. Saya telah membaca beberapa di antaranya dan akan membaca lebih banyak lagi. Beberapa makalah ini ditulis bersama oleh para peneliti di Google. Jika Anda menemukan sesuatu yang mengejutkan Anda, silakan bagikan di komentar. Memahami entitas dalam kueri sangat masuk akal, karena proses itu dapat menempatkan kueri tersebut dalam konteks. Memiliki pemahaman tentang bagaimana Google dapat memproses kueri dapat memberikan beberapa ide yang melampaui skor pengambilan informasi dan skor PageRank untuk halaman. Bagaimana Google menyesuaikan konteks, untuk keberadaan entitas dalam kueri?

Misalnya, Newcastle dapat merujuk ke Newcastle upon Tyne, Inggris Raya, ke klub sepak bola (sepak bola) Newcastle United, atau minuman Newcastle Brown Ale. Konteks dapat membantu dalam mengaburkan teks rujukan. Misalnya, jika teks rujukan mencakup konteks "John bermain untuk Newcastle", penyebutan kemungkinan besar adalah klub sepak bola, sementara "John lahir di Newcastle" kemungkinan besar merujuk pada lokasi, dll.

Kami tahu bahwa Google berusaha untuk lebih memahami konteks dalam mengembangkan kata kunci, seperti yang saya tulis di Google Patents Context Vectors to Improve Search. Paten dari Google tentang memahami konteks Entitas dengan lebih baik dapat menambahkan makna ke halaman, dan apa yang diketahui mesin telusur tentang mereka. Fokus paten baru ini adalah membangun model yang dapat membantu memahami kueri menggunakan resolusi entitas:

Model memprediksi probabilitas beberapa peristiwa yang diberikan pengamatan. Algoritma pembelajaran mesin dapat digunakan untuk melatih parameter model. Misalnya, model dapat menyimpan serangkaian fitur dan skor dukungan untuk masing-masing dari sejumlah entitas yang berbeda. Skor dukungan merepresentasikan skor probabilitas yang telah dipelajari model, probabilitas bahwa fitur tersebut muncul jika diberikan entitas. Model yang digunakan dalam resolusi entitas mengandalkan tiga komponen: model penyebutan, model konteks, dan model koherensi. Model yang disebutkan mewakili keyakinan sebelumnya bahwa frasa tertentu mengacu pada entitas tertentu dalam grafik data. Model konteks menyimpulkan entitas yang paling mungkin untuk penyebutan mengingat konteks tekstual penyebutan. Dalam model konteks, setiap fitur dapat mewakili frasa yang merupakan bagian dari konteks untuk penyebutan entitas. Misalnya, frasa "presiden" mungkin memiliki skor dukungan (atau skor probabilitas) untuk entitas "Barack Obama", "Bill Clinton", "Nicolas Sarkozy", dan banyak lainnya. Demikian pula, frasa "bermain untuk" mungkin memiliki skor dukungan untuk berbagai band, tim, dll. Konteks yang dibahas di atas dapat diwakili oleh serangkaian fitur, atau frasa, yang terjadi bersamaan dengan (misalnya, terjadi di sekitar) teks rujukan , atau penyebutan entitas. Model koherensi mencoba memaksa semua ekspresi perujuk dalam dokumen untuk menyelesaikan entitas yang terkait satu sama lain dalam grafik data. Tetapi model koherensi memperkenalkan ketergantungan antara resolusi semua penyebutan dalam dokumen dan mengharuskan hubungan entitas yang relevan dalam grafik data tersedia pada waktu inferensi, meningkatkan inferensi dan biaya akses model.

Paten resolusi entitas adalah:

Model konteks tambahan untuk resolusi entitas
Penemu: Amarnag Subramanya, Michael Ringgaard, dan Fernando Carlos das Neves Pereira
Penerima tugas: Google
Paten AS: 9.697.475
Diberikan: 4 Juli 2017
Diarsipkan: 23 Desember 2013

Abstrak:

Sistem dan metode diungkapkan untuk menggunakan model konteks aditif untuk disambiguasi entitas. Metode contoh mungkin termasuk menerima rentang teks dari dokumen dan vektor frase untuk rentang tersebut. Vektor frase mungkin memiliki beberapa fitur dan mewakili konteks untuk rentang. Metode ini juga mencakup penentuan jumlah calon entitas dari basis pengetahuan yang telah dirujuk oleh rentang. Untuk setiap jumlah entitas kandidat, metode ini dapat mencakup penentuan skor dukungan untuk entitas kandidat untuk setiap fitur dalam vektor frase, menggabungkan skor dukungan secara aditif, dan menghitung probabilitas bahwa rentang diselesaikan ke entitas kandidat yang diberikan konteksnya. . Metode ini juga dapat mencakup penyelesaian rentang ke entitas kandidat dengan probabilitas tertinggi.

Referensi Pelamar

Ketika saya melihat semua makalah yang dirujuk dalam paten ini, saya ingin membaca semuanya, dan membagikan tautannya Ini adalah makalah yang dipilih oleh para pemimpin di industri pencarian, dan memiliki tautan ke sana menyediakan cara untuk menggali beberapa penelitian terbaru tentang resolusi entitas. Saya akan melalui ini dalam minggu-minggu mendatang. Saya melihatnya sebagai kesempatan untuk belajar dari beberapa sumber terbaik yang tersedia. Jika ada sesuatu yang menonjol tentang salah satu makalah ini, saya ingin mendengar pendapat Anda tentang mereka.

Chu, et al, "Peta-Reduce untuk Machine Learning pada Multicore", Dalam NIPS, 2006, hlm. 281-288. dikutip oleh pemohon.

Friedman, dkk, "Regresi Logistik Aditif: Pandangan Statistik Peningkatan", Makalah Undangan Khusus, The Annals of Statistics, vol. 28, No. 2, 2000, hlm. 337-407. dikutip oleh pemohon.

“Ambiverse: AIDA: Accurate Online Disambiguation of Named Entities in Text and Tables“, Max Planck Institut Informatik, tersedia online di http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/r - esearch/yago-naga/aida/, 2013, 4 halaman. dikutip oleh pemohon.

Baluja et al., “Saran dan Penemuan Video untuk YouTube: Berjalan Secara Acak Melalui Grafik Tampilan”, Konferensi Internasional tentang World Wide Web (WWW 2008), 21-25 April 2008, 10 halaman. dikutip oleh pemohon.

Bollacker et al., "Freebase: Database Grafik yang Dibuat Bersama untuk Penataan Pengetahuan Manusia", Prosiding Konferensi Internasional ACM SIGMOD tentang Manajemen Data, 9-12 Juni 2008, hlm. 1247-1249. dikutip oleh pemohon.

Bunescu et al., "Menggunakan Pengetahuan Ensiklopedis untuk Disambiguasi Entitas Bernama", Prosiding Konferensi ke-11 Bab Eropa dari Asosiasi Linguistik Komputasi, April 2006, hlm. 9-16. dikutip oleh pemohon.

Cucerzan, Silviu, "Disambiguasi Entitas Bernama Skala Besar Berdasarkan Data Wikipedia", Prosiding Konferensi Bersama tentang Metode Empiris di ze et al.,

"Disambiguasi Entitas untuk Populasi Basis Pengetahuan", Prosiding Konferensi Internasional ke-23 tentang Linguistik Komputasi, Agustus 2010, hlm. 277-285. dikutip oleh pemohon.

Duchi et al., "Pembelajaran Online dan Batch yang Efisien Menggunakan Pemisahan Maju-Mundur", Jurnal Penelitian Pembelajaran Mesin, vol. 10, 2009, hlm. 2899-2934. dikutip oleh pemohon.

Ferragina et al., “TAGME: Anotasi Singkat Fragmen Teks Pendek (oleh Wikipedia Entitas)“, Prosiding Konferensi Internasional ACM ke-19 tentang Manajemen Informasi dan Pengetahuan, 26-30 Oktober 2010, hlm. 1625- 1628. dikutip oleh pemohon.

Finin et al., "Menggunakan Wikitology untuk Resolusi Koreferensi Entitas Lintas Dokumen", Asosiasi untuk Kemajuan Kecerdasan Buatan, 2009, hlm. 29-35. dikutip oleh pemohon.

Finkel et al., “Memasukkan Informasi Non-lokal ke dalam Sistem Ekstraksi Informasi oleh Gibbs Sampling“, Prosiding Pertemuan Tahunan ke-43 ACL, Juni 2005, 363-370. dikutip oleh pemohon.

Gabrilovich et al., "Memanfaatkan Keahlian 70.000 Editor Manusia: Pembuatan Fitur Berbasis Pengetahuan untuk Kategorisasi Teks", Jurnal Penelitian Pembelajaran Mesin, vol. 8, 2007, hlm. 2297-2345. dikutip oleh pemohon.

Hachey et al., "Mengevaluasi Entitas yang Menghubungkan dengan Wikipedia", Kecerdasan Buatan, vol. 194, 2013, hlm. 130-150. dikutip oleh pemohon.

Haghighi et al., "Resolusi Koreferensi Sederhana dengan Fitur Sintaksis dan Semantik yang Kaya", Prosiding Konferensi Metode Empiris dalam Pemrosesan Bahasa Alami, 6-7 Agustus 2009, hlm. 1152-1161. dikutip oleh pemohon.

Han et al., "Model Penyebutan Entitas Generatif untuk Menghubungkan Entitas dengan Basis Pengetahuan", Prosiding Pertemuan Tahunan ke-49 Asosiasi Linguistik Komputasi: Teknologi Bahasa Manusia–vol. 1, 19-24 Juni 2011, hlm. 945-954. dikutip oleh pemohon.

Han et al., “An Entity-Topic Model for Entity Linking“, Prosiding 2012 Joint Conference on Empirisical Methods in Natural Language Processing and Computational Natural Language Learning, 12-14 Juli 2012, hlm. 105-115. dikutip oleh pemohon.

Han et al., "Disambiguasi Entitas Bernama dengan Memanfaatkan Pengetahuan Semantik Wikipedia", Prosiding Konferensi ACM ke-18 tentang Manajemen Informasi dan Pengetahuan, 2-6 November 2009, hlm. 215-224. dikutip oleh pemohon.

Hoffart et al., "Disambiguasi Kuat Entitas Bernama dalam Teks", Prosiding Konferensi Metode Empiris dalam Pemrosesan Bahasa Alami, 27-31 Juli 2011, hlm. 782-792. dikutip oleh pemohon.

Kulkarni et al., "Anotasi Kolektif Entitas Wikipedia dalam Teks Web", Prosiding Konferensi Internasional ACM ke-15 tentang Penemuan Pengetahuan dan Penambangan Data, 28 Juni-Jul. 1, 2009, hlm. 457-466. dikutip oleh pemohon.

Kwiatkowski et al., "Generalisasi Leksikal dalam Induksi Tata Bahasa CCG untuk Parsing Semantik", Prosiding Konferensi Metode Empiris dalam Pemrosesan Bahasa Alami, 27-31 Juli 2011, hlm. 1512-1523. dikutip oleh pemohon.

Lin et al., "Penautan Entitas pada Skala Web", Proc. Lokakarya Bersama tentang Konstruksi Basis Pengetahuan Otomatis & Ekstraksi Pengetahuan Skala Web, 7-8 Juni 2012, hlm. 84-88. dikutip oleh pemohon.

Mayfield et al., "Resolusi Koreferensi Lintas Dokumen: Teknologi Kunci untuk Belajar dengan Membaca", Simposium Musim Semi tentang Belajar dengan Membaca dan Belajar Membaca, Maret 2009, 6 halaman. dikutip oleh pemohon.

Mihalcea dkk., “Wikify! Menghubungkan Dokumen dengan Pengetahuan Ensiklopedis“, Prosiding Konferensi ACM ke-16 tentang Manajemen Informasi dan Pengetahuan, 6-8 November 2007, hlm. 233-241. dikutip oleh pemohon.

Milne et al., "Belajar untuk Menghubungkan dengan Wikipedia", Prosiding Konferensi ACM ke-17 tentang Manajemen Informasi dan Pengetahuan, 26-30 Oktober 2008, hlm. 509-518. dikutip oleh pemohon.

Nigam et al., "Klasifikasi Teks dari Dokumen Berlabel dan Tidak Berlabel menggunakan EM", Machine Learning, vol. 39, 2000, hlm. 103-134. dikutip oleh pemohon.

Orr et al., “Belajar dari Big Data: 40 Juta Entitas dalam Konteks“, tersedia online <https://research.googleblog.com/2013/03/learning-from-big-data-40-million.html >, 8 Maret 2013, 6 halaman. dikutip oleh pemohon.

Ratinov et al., "Algoritma Lokal dan Global untuk Disambiguasi ke Wikipedia", Prosiding Pertemuan Tahunan ke-49 Asosiasi Linguistik Komputasi, 19-24 Juni 2011, hlm. 1375-1384. dikutip oleh pemohon.

Sil et al., "Menghubungkan Entitas Bernama ke Basis Data Apa Pun", Prosiding Konferensi Bersama tentang Metode Empiris dalam Pemrosesan Bahasa Alami dan Pembelajaran Bahasa Alami Komputasi, 12-14 Juli 2012, hlm. 116-127. dikutip oleh pemohon.

Subramanya et al., "Pembelajaran Semi-Terawat dengan Propagasi Ukur", Jurnal Penelitian Pembelajaran Mesin, vol. 12, 2011, hlm. 3311-3370. dikutip oleh pemohon.

Talukdar et al., “Eksperimen dalam Metode Pembelajaran Semi-Diawasi Berbasis Grafik untuk Akuisisi Kelas-Instance“, Prosiding Pertemuan Tahunan ke-48 Asosiasi Linguistik Komputasi, 11-16 Juli 2010, hlm. 1473-1481. dikutip oleh pemohon.

Talukdar et al., "Algoritma Reguler Baru untuk Pembelajaran Transduktif", Prosiding Konferensi Eropa tentang Pembelajaran Mesin dan Penemuan Pengetahuan dalam Basis Data: Bagian II, 2009, hlm. 442-457. dikutip oleh pemohon.

Talukdar et al., “Akuisisi dengan Pengawasan Lemah dari Instance Kelas Berlabel menggunakan Graph Random Walks“, Prosiding Konferensi Metode Empiris dalam Pemrosesan Bahasa Alami, Oktober 2008, hlm. 582-590. dikutip oleh pemohon.

Paten memang menggambarkan proses untuk mengaburkan entitas, tetapi bagi saya tampaknya kemampuan untuk menelusuri sumber daya dalam paten itu berharga dan layak untuk berfokus pada aspek paten itu, karena saya belajar lebih banyak tentang bagaimana mereka melakukannya. resolusi entitas. Saya akan melalui mereka. Ini mungkin tampak seperti latihan akademis, tetapi resolusi entitas sekarang menjadi bagian dari cara Google menangani kueri dan perlu diketahui sesuatu. Saat Google melihat "Kastil Baru" dalam kueri, Google seharusnya tahu apakah bir atau tim atau lokasi yang dirujuk.

Bagaimana Anda akan menunjukkannya ke mesin pencari?