Apakah Anda Menggunakan Pengindeksan Berbasis Frasa Google?

Diterbitkan: 2017-05-18

Pengindeksan Berbasis Frase dapat membantu halaman menjadi lebih relevan untuk istilah kueri tertentu dengan adanya frasa yang muncul bersama di atasnya yang terkait dengan kueri tersebut dan teks jangkar yang diarahkan ke halaman tersebut menggunakan frasa terkait. Pengindeksan Berbasis Frase adalah sesuatu yang dikerjakan di Google setidaknya sejak 2004.

Ketika Anna Lynne Patterson menulis makalah Why Writing Your Own Search Engine is Hard, dia tidak lama kemudian menciptakan salah satu mesin pencari terbesar yang dapat ditemukan di Web, dengan nama Recall, yang mengindeks lebih dari 30 Miliar halaman di Internet Arsip. Dia akhirnya bergabung dengan Google tidak lama kemudian, dan mulai mengajukan paten di sana pada pengindeksan berbasis frase. Saya telah menulis tentang beberapa paten yang dia keluarkan:

02/10/2006 – Pindahkan pagerank: Google melihat frase?
05/19/2006 – Google Targetkan 100 Miliar Halaman?
29/12/2006 – Pengambilan Informasi Berbasis Frasa dan Deteksi Spam
09/16/2008 – Paten Pengindeksan Berbasis Frasa Google Diberikan
03/15/2009 – Apa Frasa Teratas untuk Situs Web Anda?
04/07/2010 – Frase dan Meninjau Kembali Pengindeksan Berbasis Frasa Google
19/12/2011 – 10 Paten SEO Paling Penting, Bagian 5 – Pengindeksan Berbasis Frase
08/05/2016 – Pemodelan Tematik Menggunakan Kata Terkait dalam Dokumen dan Anchor Text

Saya tahu bahwa banyak yang harus dilontarkan kepada Anda di awal posting blog. Jika Anda ingin mengetahui lebih lanjut tentang topik ini, Anda akan kembali ke daftar di atas dan mengunjungi beberapa posting sebelumnya. Saya tidak memberi tahu Anda bahwa Anna Lynne Patterson telah meninggalkan Google pada satu waktu untuk memulai Cuil, pesaing Google yang sayangnya gagal, dan dipekerjakan kembali oleh Google setelah Cuil ditutup sebagai Wakil Presiden Pencarian di Google.

Hari ini, Google diberikan paten lanjutan untuk paten yang awalnya diajukan pada tahun 2007, yang membuat saya yakin ketika pertama kali keluar bahwa Google telah mengadopsi pengindeksan berbasis frase. Itu karena cara sistem pengindeksan berbasis frase digambarkan bekerja tampaknya masuk akal untuk mengindeks sesuatu yang besar dan kompleks seperti The World Wide Web.

Paten dapat ditemukan di:

Arsitektur server indeks menggunakan daftar posting frase berjenjang dan terpotong
Penemu: Pei Cao, Nadav Eiron, Soham Mazumdar, Anna L. Patterson, Russell Power, dan Yonatan Zunger
Penerima Tugas: Google Inc.
Paten AS 9.652.483
Diberikan: 16 Mei 2017
Diarsipkan: 23 November 2015

Abstrak:

Sistem temu kembali informasi menggunakan frase untuk mengindeks, mengambil, mengatur, dan mendeskripsikan dokumen. Frase diekstraksi dari kumpulan dokumen. Dokumen diindeks menurut frasa yang disertakan, menggunakan daftar posting frasa. Daftar posting frase disimpan dalam sekelompok server indeks. Daftar posting frase dapat berjenjang ke dalam kelompok dan dibagi ke dalam partisi. Frasa dalam kueri diidentifikasi berdasarkan kemungkinan frasa. Jadwal kueri berdasarkan frasa dibuat dari frasa dan dioptimalkan untuk mengurangi biaya pemrosesan kueri dan komunikasi. Eksekusi jadwal kueri dikelola untuk lebih mengurangi atau menghilangkan operasi pemrosesan kueri di berbagai server indeks.

Saya telah mulai membaca paten untuk mendapatkan gambaran tentang cara kerja mesin pencari, dan yang ini menjelaskan indeks terbalik dan daftar posting yang terdiri dari istilah individual dan kemudian memposting daftar yang terdiri dari frasa yang bermakna. Posting terakhir dalam daftar saya di atas tentang "Pemodelan Tematik" adalah tentang paten pengindeksan berbasis frase yang diajukan pada tahun 2012, berjudul "Integrated external related phrase information into a phrase-based indexing information retrieval system," yang berbicara tentang bagaimana kehadiran tertentu frase pada halaman dapat digunakan untuk memprediksi penampilan frase lain. Saya sangat merekomendasikan membaca paten terbaru ini dan deskripsinya tentang cara kerja mesin pencari berbasis frase. Ada beberapa tantangan dalam mencoba menyiapkan indeks berbasis frasa, seperti yang dikatakan oleh paten kepada kita di sini:

Masalahnya di sini adalah bahwa dokumen indeks sistem konvensional didasarkan pada istilah individu daripada konsep. Konsep sering diungkapkan dalam frasa, seperti "materi gelap", "Presiden Amerika Serikat", atau idiom seperti "di bawah cuaca" atau "selusin sepeser pun." Paling-paling, beberapa sistem sebelumnya akan mengindeks dokumen mengenai kumpulan frasa `diketahui` yang telah ditentukan sebelumnya dan minimal, yang biasanya dipilih oleh operator manusia. Frase pengindeksan biasanya dihindari karena kebutuhan komputasi dan memori yang dirasakan untuk mengidentifikasi semua kemungkinan frase, katakanlah tiga, empat, atau lima atau lebih. Misalnya, dengan asumsi bahwa lima kata dapat membentuk sebuah frase dan bahwa sebuah korpus besar akan memiliki setidaknya 200.000 istilah unik, akan ada kira-kira 3.2.kali.10.sup.26 kemungkinan frase, jelas lebih banyak daripada yang dapat disimpan atau disimpan oleh sistem yang ada. jika tidak, manipulasi secara terprogram. Masalah selanjutnya adalah bahwa frasa terus-menerus masuk dan meninggalkan leksikon dalam hal penggunaannya, jauh lebih sering daripada kata-kata individual baru yang ditemukan. Frase baru selalu dihasilkan dari teknologi, seni, peristiwa dunia, dan hukum. Frasa lain akan menurun penggunaannya seiring waktu.

Beberapa sistem temu kembali informasi yang ada berusaha untuk memberikan temu kembali konsep dengan menggunakan pola kemunculan bersama dari kata-kata individual. Dalam sistem ini, pencarian pada satu kata, seperti "Presiden," juga akan mengambil dokumen yang memiliki kata lain yang sering muncul dengan "Presiden," seperti "Putih" dan "Rumah". Meskipun pendekatan ini dapat menghasilkan hasil pencarian yang memiliki dokumen yang terkait secara konseptual pada tingkat kata-kata individual, pendekatan ini biasanya tidak menangkap hubungan topikal antara frasa yang muncul bersamaan itu sendiri.

Masalah dengan membutuhkan begitu banyak penyimpanan untuk menangkap semuanya pada sistem pengindeksan berbasis frasa masih terjadi ketika Anda mencoba mengindeks istilah individual:

Masalah lain dengan sistem pengindeksan berbasis istilah individu yang ada terletak pada pengaturan komputer server untuk mengakses indeks. Dalam sistem pengindeksan konvensional untuk perusahaan skala besar seperti Internet, indeks terdiri dari daftar posting untuk lebih dari 200.000 istilah unik. Setiap daftar posting istilah dapat memiliki ratusan, ribuan, dan tidak jarang, jutaan dokumen. Indeks biasanya dibagi di antara sejumlah besar server indeks, di mana setiap server indeks akan berisi indeks yang mencakup semua istilah unik, dan untuk setiap istilah ini, beberapa bagian dari daftar posting. Sistem pengindeksan tipikal seperti ini mungkin memiliki lebih dari 1.000 server indeks dalam pengaturan ini.

Ketika kueri tertentu dengan sejumlah istilah diproses dalam sistem pengindeksan seperti itu, menjadi perlu untuk mengakses semua server indeks untuk setiap kueri. Jadi, bahkan kueri satu kata yang sederhana memerlukan setiap server indeks (misalnya, 1.000 server) untuk menentukan apakah itu berisi dokumen yang berisi kata tersebut. Karena semua server indeks harus memproses kueri, waktu pemrosesan kueri keseluruhan server indeks paling lambat dibatasi.

Itulah masalah-masalah yang dianggap ada ketika ide pengindeksan berbasis frase dikembangkan. Namun, jika masalah tersebut dapat diselesaikan, ada manfaat potensial untuk menggunakan pengindeksan berbasis frase. Paten ini menjelaskan bagaimana server dapat diatur untuk mengindeks dan mencari web berdasarkan frasa.

Keuntungan-keuntungan? Bayangkan sebuah halaman tentang “Stadion Baseball.” Kemungkinannya bagus bahwa itu akan mencakup frasa seperti “gundukan pitcher”, “Tempat Konsesi”, dan “Pangkalan Pertama.” Frasa ini dapat diidentifikasi sebagai relevan dengan halaman tentang Stadion Baseball. Ungkapan-ungkapan itu sering cenderung muncul bersamaan di halaman berperingkat tinggi tentang stadion Baseball. Paten mungkin mencetak frasa seperti yang dijelaskan di sini:

Dalam satu aspek, sistem temu kembali informasi mencakup sistem pengindeksan dan arsitektur server indeks berdasarkan frase. Frasa diekstraksi dari kumpulan dokumen untuk mengidentifikasi frasa nyata seperti yang digunakan dalam bahasa oleh pengguna, bukan sekadar kombinasi kata. Umumnya, hal ini dilakukan dengan mengumpulkan sejumlah besar rangkaian kata yang merupakan frasa kandidat berdasarkan fitur struktural dalam dokumen. Setiap frase kandidat diberi skor frase dokumen untuk setiap dokumen di mana dia muncul, dengan cara yang mencerminkan kemungkinannya menjadi frase nyata berdasarkan posisinya dalam dokumen dan sejauh mana itu muncul secara independen atau bersama-sama dengan frase kandidat lainnya dalam dokumen. Juga, setiap frase kandidat diproses untuk mengidentifikasi sub frase di dalamnya, yang memiliki skor yang sama.

Skor frase dokumen setiap frase kandidat kemudian digabungkan di seluruh dokumen di mana tampaknya membuat skor gabungan. Skor frase dokumen dan skor gabungan untuk frase kandidat dievaluasi untuk menentukan seberapa kuat kumpulan dokumen mendukung penggunaan frase kandidat dalam frase nyata. Umumnya, frasa kandidat dipertahankan jika didukung kuat oleh setidaknya satu dokumen; misalnya, nilai maksimum frasa dokumennya melebihi ambang batas yang telah ditentukan. Frase kandidat juga dipertahankan jika cukup didukung, seperti yang ditunjukkan dengan memiliki skor frasa gabungan di atas ambang batas kedua yang telah ditentukan sebelumnya. Ini menunjukkan bahwa frasa kandidat memiliki penggunaan yang cukup luas untuk dianggap sebagai frasa nyata. Akhirnya, frasa kandidat juga dipertahankan di tempat yang didukung secara luas, seperti yang ditunjukkan oleh frasa yang menerima skor minimum dari sejumlah dokumen. Sebagai contoh, sistem dapat mencakup sekitar 100.000 hingga 200.000 frasa, yang akan mewakili frasa nyata yang digunakan dalam dokumen, bukan sekadar kombinasi kata.

Bawa Pulang

Menggunakan metode seperti ini untuk mengidentifikasi frasa nyata, seberapa sering muncul, dan lokasinya dalam dokumen rumit. Sistem pengindeksan berbasis frasa ini mencakup beberapa paten yang berbeda, termasuk menghasilkan skor berdasarkan seberapa sering frasa tertentu muncul dalam dokumen yang berbeda dan sebagai teks jangkar yang menunjuk ke dokumen dan mengidentifikasi spam menggunakan pengindeksan berbasis frasa. Ada banyak paten terkait yang telah dikembangkan sejak 2004. Cukup kompleks sehingga tidak banyak dibicarakan. Ya, Anda dapat mencari frasa mana yang cenderung sering muncul di halaman peringkat teratas untuk istilah tertentu, dan itu akan memberi Anda petunjuk tentang frasa bermakna apa yang idealnya harus Anda sertakan di halaman Anda tentang istilah tersebut.

Saya menulis tentang indeks terbalik Google dan menyebutkan posting ini karena paten yang saya tulis memberikan indeks frasa terbalik di Web, menunjukkan bahwa Google kemungkinan melacak frasa tersebut.