Kafein: Pengindeks Google

Diterbitkan: 2017-03-24

Google Kafein

Pembaruan mesin pencari Google sering kali merupakan peristiwa misterius, tetapi terkadang saya menemukan informasi dalam paten Google yang memberikan beberapa wawasan tentang cara kerja sesuatu. Salah satu pembaruan Google yang bertujuan membuat Google lebih cepat daripada sebelumnya adalah pembaruan Kafein, yang secara resmi diumumkan oleh Google pada tahun 2010 dengan posting ini: Indeks pencarian baru kami: Kafein.

Jika Anda membuat perubahan pada konten di halaman web, berapa lama waktu yang dibutuhkan agar perubahan tersebut masuk ke indeks Google? Jika Anda menerbitkan halaman atau posting blog baru, kapan hal itu menjadi bagian dari indeks Google sebagai sesuatu yang dapat dipertanyakan? Dulu diperlukan beberapa waktu sebelum konten yang ditambahkan ke Web menjadi sesuatu yang dapat dicari. Google akan memperbarui indeksnya, dan banyak data yang telah ditambahkan ke web akan menjadi pertanyaan dalam gerakan yang disebut oleh banyak orang sebagai Google Dance. Kemudian Google keluar dengan pendekatan yang berarti perubahan terjadi pada hasil pencarian lebih cepat, dan Mantan kepala Spam Web Google, Matt Cutts, merujuknya dalam video ini di mana dia menggambarkan "Fluks" yang terjadi di hasil Pencarian Google:

Google telah mendorong pembaruan yang dimaksudkan untuk mempercepat pengindeksan konten di Web. Salah satu pembaruan itu disebut sebagai pembaruan Big Daddy. Satu lagi yang terjadi pada tahun 2009 disebut sebagai pembaruan Kafein. Tampilan yang sedikit berbeda tersedia di artikel surat kabar ini: Google Caffeine: Apa itu sebenarnya

Baru-baru ini, saya menemukan paten yang menunjukkan bagaimana Google dapat membuat indeks pencarian mereka lebih cepat dan memutuskan untuk membagikannya setelah melihat pembaruan Kafein Google disalahkan atas banyak perubahan pada bagaimana konten di Web telah diindeks selama bertahun-tahun – membagikan paten ini mungkin memberi orang sedikit lebih banyak pemahaman tentang bagaimana Google dapat mengindeks halaman di Web. Tiga paten terkait diajukan pada hari yang sama. Mereka memberikan pandangan yang menarik tentang bagaimana Kafein dapat beroperasi. Apa yang mereka lakukan hanyalah ini:

Perwujudan yang diungkapkan umumnya berhubungan dengan sistem dan metode pemrosesan data, dan khususnya dengan repositori dokumen yang mendukung latensi rendah dari saat dokumen diperbarui hingga saat dokumen tersedia untuk kueri, dan yang memerlukan sedikit sinkronisasi antara utas kueri dan utas pembaruan repositori .

Jadi, jika Anda bertanya-tanya berapa lama waktu yang dibutuhkan dari saat Anda memublikasikan sesuatu di Web hingga saat ditambahkan ke Indeks Google, itu tergantung pada sinkronisasi yang dijelaskan dalam paten tersebut.

Google mencari apa yang disebut sebagai indeks terbalik, yang berisi semua kata di setiap dokumen yang diindeksnya di web, bersama dengan petunjuk untuk lokasi kata-kata itu. Paten menunjukkan apa yang disebut sebagai "hambatan" dalam memberikan hasil baru. Ini termasuk:

(1) biaya atau overhead yang terkait dengan membangun kembali indeks dokumen setiap kali repositori dokumen diperbarui. Misalnya, overhead yang signifikan sering dikaitkan dengan membangun indeks kecil dari dokumen baru dan yang diperbarui dan secara berkala menggabungkan indeks kecil dengan indeks utama, dan sistem seperti itu biasanya mengalami latensi panjang antara pembaruan dokumen dan ketersediaan dokumen tersebut dalam indeks repositori.
(2) kesulitan memproses kueri secara terus-menerus terhadap repositori dokumen saat memperbarui repositori, tanpa menimbulkan overhead yang besar. Salah satu aspek dari kendala kedua ini adalah kebutuhan untuk menyinkronkan baik utas yang menjalankan kueri maupun utas yang memperbarui repositori dokumen dengan struktur data utama dalam repositori data. Kebutuhan untuk menyinkronkan utas kueri dan utas pembaruan repositori dapat menghadirkan hambatan yang signifikan terhadap operasi yang efisien dari repositori dokumen jika pembaruan dokumen sering dilakukan, yang pada gilirannya merupakan penghalang untuk menjaga kesegaran repositori dokumen.

Untuk mendapatkan paten dan membaca semuanya, berikut ini tautannya:

Sistem dan metode treadmill dokumen untuk memperbarui dokumen dalam repositori dokumen dan memulihkan ruang penyimpanan dari dokumen yang tidak valid
Penemu: Michael Burrows dan Jeffrey A. Dean
Penerima Tugas: Google Inc.
Paten AS 7.617.226
Diberikan: 10 November 2009
Diarsipkan: 10 Februari 2006

Abstrak

Repositori tokenspace menyimpan dokumen sebagai urutan token. Repositori tokenspace, serta indeks terbalik untuk repositori tokenspace, menggunakan struktur data yang memiliki ujung pertama dan ujung kedua dan memungkinkan penyisipan di ujung kedua dan penghapusan dari ujung depan. Dokumen dalam repositori tokenspace diperbarui dengan memasukkan versi yang diperbarui ke dalam repositori di ujung kedua dan membatalkan versi sebelumnya. Dokumen yang tidak valid tidak segera dihapus; mereka diidentifikasi dalam daftar pengumpulan sampah untuk pengumpulan sampah selanjutnya. Repositori tokenspace digerakkan untuk memindahkan dokumen yang tidak valid ke ujung depan, di mana mereka dapat dihapus dan ruang penyimpanannya dipulihkan.

Treadmill

Ketika saya membaca paten ini, salah satu kata yang menarik perhatian saya adalah "treadmilling", yang digunakan untuk menggambarkan bagaimana data ditangani dalam indeks Google:

Karena penghapusan hanya dapat dilakukan pada data di front end, secara berkala data di dalam sel "di-treadmill". Artinya, data valid di front end disalin ke back end dan data valid asli di front end dihapus. Karena data yang valid dari ujung depan dipindahkan ke ujung belakang, data dalam sel antara ujung depan dan ujung belakang secara logis digeser ke ujung depan, di mana mungkin akan dihapus jika diperlukan. Dengan demikian, treadmill membantu memulihkan ruang memori yang ditempati oleh data (terkadang disebut data basi) yang tidak lagi valid. Informasi lebih lanjut mengenai treadmill dijelaskan di bawah ini, dalam kaitannya dengan Gambar. 13-15.

Paten lainnya memberikan rincian lebih lanjut tentang cara kerja sistem pengindeksan ini, dan setelah membacanya, saya bertanya-tanya apakah itu berbicara tentang Kafein dan apakah Kafein masih digunakan oleh Google. Selama beberapa hari yang lalu, juru bicara Google Gary Illyes telah membuat beberapa Tweet samar yang merujuk pada pengindeks Google Caffeine dengan cara yang tampaknya menunjukkan bahwa itu masih penting dan masih digunakan oleh Google:

Tweet Kafein Gary Illyes