Bagaimana Google Mengekstrak Informasi Hubungan Entitas dari Halaman T&J?
Diterbitkan: 2019-10-30Seberapa membantu situs tanya jawab dalam menyediakan mesin pencari dengan informasi tentang entitas, dan informasi hubungan entitas tentang entitas tersebut dan entitas lain serta properti entitas?
Paten yang baru-baru ini diberikan dari Google melihat sumber informasi potensial tersebut dan memberi tahu kami lebih banyak.
Salah satu penemu paten ini, Evgeniy Gabrilovich, bekerja di proyek gudang pengetahuan Google yang membahas tentang hal-hal seperti mengekstrak informasi hubungan dari teks di web tentang entitas. Ada baiknya melihat presentasi yang disiapkan selama pengembangan proyek gudang pengetahuan untuk melihat apa yang dikatakan tentang mengekstraksi informasi hubungan entitas dari Web. Itu dapat ditemukan di: Membangun dan Menambang Grafik Pengetahuan Skala Web
Hubungan Kandidat Antar Entitas
Paten itu, yang diberikan kepada Google pada 22 Oktober 2019, memberi tahu kami tentang bagaimana situs tersebut dapat digunakan sebagai sumber daya untuk memberikan informasi tentang hubungan antar entitas, seperti "Dengan siapa Barack Obama menikah?" Halaman itu mungkin juga menyertakan jawaban, "Michelle Obama," di dalamnya.
Paten menunjukkan bahwa halaman tersebut dapat mengidentifikasi hubungan entitas dengan melihat pertanyaan yang terlibat:
Jenis hubungan ditentukan berdasarkan teks pertanyaan, misalnya, dengan menentukan bahwa istilah "menikah dengan" dalam teks pertanyaan kemungkinan menunjukkan hubungan pasangan antara entitas yang ditunjukkan dalam teks pertanyaan dan entitas yang ditunjukkan dalam teks jawaban. Entitas juga diidentifikasi dari teks pertanyaan dan teks jawaban. Misalnya, sistem komputer dapat mengidentifikasi entitas "Barack Obama" dari teks pertanyaan, dan entitas "Michelle Obama" dari teks jawaban.
Setelah mengidentifikasi jenis hubungan dan dua entitas yang diidentifikasi oleh teks pertanyaan dan jawaban, hubungan kandidat ditentukan. Misalnya, hubungan kandidat yang ditentukan mungkin merupakan hubungan pasangan antara entitas "Barack Obama" dan "Michelle Obama."
Pindah dari Kemungkinan Jawaban ke Kandidat Jawaban
Paten memberi tahu kita bahwa situs tanya jawab mungkin menunjukkan sejumlah jawaban potensial untuk pertanyaan tentang hubungan pasangan dengan Barack Obama, yang dapat mencakup "Michelle Obama," "Hillary Clinton," atau "Laura Bush."
Bagaimana Google Memutuskan jawaban kandidat mana yang paling mungkin?
Google dapat menilai setiap hubungan kandidat berdasarkan “frekuensi hubungan kandidat ditentukan dari halaman web Situs Web T&J. Paten memberitahu kita bahwa:
Relasi kandidat yang memiliki skor tertinggi dipilih sebagai relasi valid yang paling mungkin untuk tipe dan entitas relasi tertentu. Misalnya, berdasarkan penentuan bahwa hubungan calon pasangan antara “Barack Obama” dan “Michelle Obama” adalah hubungan pasangan yang paling sering terjadi untuk entitas “Barack Obama”, sistem komputer menentukan bahwa ada hubungan pasangan antara “Barack Obama” dan "Michelle Obama." Sistem komputer kemudian dapat membangun, dalam model hubungan entitas, hubungan pasangan antara entitas "Barack Obama" dan entitas "Michelle Obama."
Apa yang inovatif tentang proses yang dijelaskan dalam paten ini? Ini memberitahu kita bahwa langkah-langkah ini adalah:
- Ini melibatkan tindakan untuk mendapatkan sumber daya
- Mengidentifikasi bagian pertama teks sumber yang dicirikan sebagai pertanyaan
- Bagian kedua dari teks sumber yang dicirikan sebagai jawaban atas pertanyaan
- Mengidentifikasi entitas yang dirujuk oleh satu atau lebih istilah dari bagian pertama teks yang dicirikan sebagai pertanyaan
- Jenis hubungan yang dirujuk oleh satu atau lebih istilah lain dari bagian pertama teks yang dicirikan sebagai pertanyaan
- Entitas yang dirujuk oleh bagian kedua teks yang dicirikan sebagai jawaban atas pertanyaan
- Menyesuaikan skor yang terkait dengan hubungan tipe hubungan untuk entitas yang direferensikan oleh satu atau beberapa istilah bagian pertama teks yang dicirikan sebagai pertanyaan dan entitas yang direferensikan oleh bagian kedua dari teks yang dicirikan sebagai jawaban dari pertanyaan

Proses ini menggunakan situs tanya jawab (Q&A)
Ini melihat pertanyaan sebagai templat untuk mengidentifikasi entitas pertama dan tipe hubungan yang ditampilkan dalam pertanyaan, yang mana setiap templat di situs Tanya Jawab mungkin dikaitkan dengan tipe hubungan tertentu.
Paten informasi hubungan entitas ini dapat ditemukan di:
Ekstraksi informasi dari situs tanya jawab
Penemu: Wei Lwun Lu, Denis Savenkov, Amarnag Subramanya, Jeffrey Dalton, Evgeniy Gabrilovich, Eugene Agichtein
Penerima tugas: Google LLC
Paten AS: 10.452.694
Diberikan: 22 Oktober 2019
Diarsipkan: 20 Desember 2017
Abstrak
Metode, sistem, dan peralatan untuk memperoleh sumber daya, mengidentifikasi bagian pertama teks sumber yang dicirikan sebagai pertanyaan, dan bagian kedua teks sumber yang dicirikan sebagai jawaban atas pertanyaan, mengidentifikasi entitas yang direferensikan oleh satu atau lebih istilah teks yang dicirikan sebagai pertanyaan, jenis hubungan yang dirujuk oleh satu atau lebih istilah lain dari teks yang dicirikan sebagai pertanyaan, dan entitas yang dirujuk oleh teks yang direferensikan ditandai sebagai jawaban atas pertanyaan, dan menyesuaikan skor untuk hubungan jenis hubungan untuk entitas yang dirujuk oleh satu atau lebih istilah teks yang dicirikan sebagai pertanyaan dan entitas yang direferensikan oleh teks yang ditandai sebagai jawaban atas pertanyaan.
Model Informasi Relasi Entitas
Fokus paten ini adalah membangun model hubungan entitas yang menentukan hubungan yang ditentukan sumber daya situs web Tanya Jawab.
Sistem ini meliputi:
Basis data sumber daya T&J
Pemilih sumber T&J
Pengklasifikasi T&J
Pengurai kalimat
Pengidentifikasi entitas
Pengidentifikasi hubungan
Sebuah agregator
Database hubungan kandidat
Sebuah pemilih hubungan
Model hubungan entitas.
Entitas yang diwakili dalam model hubungan entitas dapat direpresentasikan sebagai node, dengan hubungan antara entitas direpresentasikan sebagai tepi. Skor kepercayaan tentang hubungan entitas merupakan indikasi kemungkinan akurasi hubungan tersebut benar.
Saat mengekstrak informasi hubungan entitas dari sumber daya situs web Tanya Jawab, sistem ini mungkin melihat basis data sumber daya Tanya Jawab yang mencakup banyak sumber daya dari situs web Tanya Jawab.
Sumber daya tersebut dapat mencakup:
- Sejumlah halaman web dari situs web T&J0, seperti versi arsip halaman web dari situs web T&J
- Metadata yang berkaitan dengan halaman web situs web T&J
- Dokumen dapat diakses di situs Q&A
- Gambar dapat diakses di situs Q&A
- Video dapat diakses di situs web Tanya Jawab
- Audio dapat diakses di situs web Tanya Jawab
- Sumber daya lain yang terkait dengan atau dapat diakses di situs web Tanya Jawab
Basis data sumber daya Tanya Jawab juga dapat menyertakan sumber daya dari sumber selain situs web Tanya Jawab, seperti:

- Satu atau lebih sumber dari situs forum
- Platform jejaring sosial
- Situs web pertanyaan yang sering diajukan (FAQ) atau halaman web FAQ
- Situs web informasi
- Sumber lain di mana pertanyaan dan jawaban tersedia
Saat pengidentifikasi pertanyaan ini mencari pertanyaan dan jawaban entitas identitas dan hubungan di antara mereka, pengidentifikasi mungkin mulai mengurai teks pada halaman Tanya Jawab untuk menemukan keberadaan karakter atau rangkaian karakter tertentu, seperti tanda tanya. Mungkin juga mencari kata atau pertanyaan yang menunjukkan teks pertanyaan seperti:
- "Aku ingin tahu"
- "Saya bertanya"
- "pertanyaan"
- "WHO"
- "Apa"
- "di mana"
- "Kapan"
- "mengapa"
- "bagaimana"
- dll.
Dengan cara yang sama, Ketika jawaban dicari, teks pada halaman dapat diuraikan untuk menemukan kata-kata yang mungkin menunjukkan teks jawaban, seperti:
- "Aku tahu"
- "Aku percaya"
- "Kupikir"
- "Jawabannya adalah"
- "menjawab"
- dll.
Bagian dari proses ini yang melibatkan penguraian teks pada halaman dengan pendekatan pemrosesan bahasa alami yang menandai bagian ucapan:
Sebagai contoh, pengurai kalimat mungkin menerima teks pertanyaan, “Dengan siapa Barack Obama menikah?” dan dapat membubuhi keterangan teks pertanyaan sebagai “WHO/pronoun IS/verb BARACK OBAMA/noun MARRIED/adjective TO/verb?” Demikian pula, pengurai kalimat dapat menerima teks jawaban "Michelle Obama" dan dapat membubuhi keterangan teks jawaban sebagai "MICHELLE OBAMA/kata benda." Pengurai kalimat selanjutnya dapat menentukan kelas atau hipernim dari satu atau lebih unit tata bahasa dalam teks beranotasi, misalnya, untuk menentukan bahwa istilah "Barack Obama" merupakan kelas kata benda "orang" dan bahwa istilah "Michelle Obama" juga merupakan kelas kata benda "orang".
Setelah mengurai teks tanya jawab, pengurai kalimat memberikan teks tanya jawab beranotasi ke pengenal entitas dan pengenal hubungan. Dalam implementasi alternatif, teks pertanyaan dan/atau teks jawaban dapat diberikan ke pengenal entitas dan pengenal hubungan tanpa diproses oleh pengurai kalimat. Dalam implementasi tersebut, pengidentifikasi entitas dan/atau pengidentifikasi hubungan dapat melakukan operasi serupa dengan yang dilakukan oleh pengurai kalimat atau dapat mengidentifikasi entitas atau hubungan dari teks pertanyaan dan/atau teks jawaban tanpa teks pertanyaan atau teks jawaban yang dianotasi. Dalam kasus seperti itu, pengklasifikasi T&J dapat memberikan teks tanya jawab ke pengenal entitas dan pengenal hubungan.
Teks pertanyaan dan teks jawaban yang diidentifikasi dapat mengidentifikasi jenis hubungan entitas yang ditanyakan dan dijawab pada halaman Tanya Jawab.
Contoh lain bagaimana sebuah jawaban dapat diurai dari teks pertanyaan dan teks jawaban:
Misalnya, pengenal entitas mungkin menerima teks pertanyaan “Dengan siapa Barack Obama menikah?” dan mengidentifikasi entitas "Barack Obama," dan mungkin menerima teks jawaban "Dia tinggal bersama istrinya Michelle Obama di Gedung Putih" dan mengidentifikasi entitas "Michelle Obama" dan "Gedung Putih." Pengenal entitas dapat menentukan bahwa entitas "Barack Obama" dan "Michelle Obama" adalah masing-masing dari kelas kata benda "orang" dan bahwa entitas "Gedung Putih" adalah kelas kata benda "tempat". Pengenal entitas dapat memilih entitas "Barack Obama" dan "Michelle Obama" sebagai entitas yang berpotensi terkait berdasarkan kedua entitas yang menjadi kelas kata benda "orang", dan oleh karena itu lebih cenderung terkait dalam beberapa cara daripada orang tertentu. berhubungan dengan tempat tertentu.
Apa jenis informasi hubungan entitas lain yang dapat ditemukan menggunakan pendekatan seperti ini?
- Hubungan suami-istri
- Hubungan keluarga
- Hubungan politik
- Hubungan bisnis
- Hubungan kepemilikan
- Hubungan tempat tinggal
- Hubungan tempat lahir
- Hubungan karyawan/majikan
- hubungan kerja
- Hubungan lain antara orang, tempat, atau benda
Beberapa jenis Informasi Relasi Entitas lainnya
Antara entitas tertentu dan nilai numerik atau tanggal. Nilai numerik tersebut dapat mencakup:
- Usia seseorang
- Kekayaan bersih
- nomor jersey
- Tinggi
- Tanggal lahir
- Tanggal pernikahan
- Tanggal kematian
- Tanggal pendirian Bisnis
- Kota dengan ukuran populasi
- dll.
“Pencocokan” dapat menentukan apakah pertanyaan tertentu cocok dengan templat tertentu yang dapat diakses oleh pengidentifikasi hubungan, membuat templat seperti, “Dengan siapa [PERSON] menikah?” hubungan untuk mengumpulkan informasi tentang.
Paten mencoba menjelaskan kepada kita bahwa templat ini akan mencoba mencocokkan jenis entitas yang tepat dengan templat, sehingga entitas yang mungkin menunjukkan tempat mungkin tidak berfungsi dengan pengidentifikasi hubungan yang menentukan jenis hubungan pasangan, dengan memberikan contoh : “Dengan siapa Amerika menikah?”
Jadi saya mencoba Query itu, dan mendapat jawaban yang tidak terduga:

Kesimpulan
Google baru saja mengumumkan bahwa mereka menggunakan pendekatan pemrosesan bahasa alami yang disebut BERT. Saya menyebutkan pendekatan itu ketika saya menulis posting Semantic Frames dan Word Embeddings di Google pada bulan Mei. Paten ini memberikan contoh yang baik tentang bagaimana pemrosesan bahasa alami dapat digunakan untuk memahami pertanyaan dan jawaban di halaman Tanya Jawab, dan apakah itu cocok dengan beberapa templat yang diketahui untuk mengidentifikasi hubungan antara entitas dan properti entitas.
Paten memang memberikan beberapa contoh tambahan tentang bagaimana ia mungkin mencoba untuk mendapatkan lebih banyak rasa percaya diri tentang hubungan antara entitas atau properti entitas tersebut. Tetapi paten ini cukup deskriptif tentang bagaimana informasi hubungan entitas dapat diekstraksi dari situs web Tanya Jawab.
