Kafein: Google'ın Dizin Oluşturucusu

Yayınlanan: 2017-03-24

Google Kafein

Google arama motoru güncellemeleri genellikle gizemli olaylardır, ancak bazen Google patentlerinde bir şeyin nasıl çalıştığına dair bazı bilgiler sağlayan bilgilerle karşılaşıyorum. Google'ı eskisinden çok daha hızlı hale getirmeyi amaçlayan bir Google güncellemesi, 2010 yılında Google tarafından resmi olarak şu yazıyla duyurulan Kafein güncellemesiydi: Yeni arama dizinimiz: Kafein.

Bir web sayfasının içeriğinde değişiklik yaparsanız, bu değişikliklerin Google'ın dizinine eklenmesi ne kadar sürer? Yeni bir sayfa veya blog yazısı yayınlarsanız, bu ne zaman sorgulanabilecek bir şey olarak Google'ın dizininin bir parçası olur? Web'e eklenen içeriğin aranabilir hale gelmesi biraz zaman alırdı. Google dizinini güncelleyecek ve web'e eklenen birçok veri, birçok kişi tarafından Google Dance olarak adlandırılan bir harekette sorgulanabilir hale gelecekti. Ardından Google, değişikliklerin arama sonuçlarında daha hızlı gerçekleşmesi anlamına gelen bir yaklaşımla ortaya çıktı ve Google'ın Eski Web Spam Başkanı Matt Cutts, Google Arama sonuçlarında meydana gelen "Akı"yı açıkladığı bu videoda buna atıfta bulundu:

Google, Web'deki içeriğin dizine eklenmesini hızlandırmayı amaçlayan güncellemeleri zorladı. Bu güncellemelerden birine Big Daddy güncellemesi adı verildi. 2009'da gerçekleşen bir diğeri ise Kafein güncellemesi olarak adlandırıldı. Bu gazete makalesinde biraz farklı bir görünüm var: Google Kafein: Gerçekte ne?

Geçenlerde, Google'ın arama dizinlerini nasıl çok daha hızlı hale getirebileceğini gösteren bir patentle karşılaştım ve Google'ın Kafein güncellemesinin yıllar içinde Web'deki içeriğin dizine eklenmesiyle ilgili birçok değişiklikten sorumlu tutulduğunu gördükten sonra paylaşmaya karar verdim - bu patenti paylaşmak insanlara Google'ın Web'deki sayfaları nasıl indekslediği konusunda biraz daha anlayış verebilir. Aynı gün üç ilgili patent başvurusu yapıldı. Kafeinin nasıl çalışabileceğine dair ilginç bir bakış sunuyorlar. Yaptıkları basitçe şudur:

Açıklanan düzenlemeler, genel olarak veri işleme sistemleri ve yöntemleriyle ve özellikle bir belgenin güncellenmesinden belgenin sorgular için uygun olduğu zamana kadar düşük gecikmeleri destekleyen ve sorgu dizileri ile veri havuzu güncelleme dizileri arasında çok az senkronizasyon gerektiren bir belge deposuyla ilgilidir. .

Dolayısıyla, bir şeyi Web'de yayınladığınız andan Google'ın İndeksine eklenmesine kadar geçen sürenin ne kadar sürdüğünü merak ettiyseniz, bu, o patentlerde açıklanan senkronizasyona bağlıdır.

Google, web'de dizine eklediği her belgedeki tüm sözcükleri ve bu sözcüklerin konumlarını gösteren işaretçileri içeren, tersine çevrilmiş dizin olarak adlandırılan şeyi arar. Patent, yeni sonuçlar sağlamada “engeller” olarak adlandırdığı şeye işaret ediyor. Bunlar şunları içerir:

(1) belge deposu her güncellendiğinde belge dizininin yeniden oluşturulmasıyla ilgili masraf veya genel gider. Örneğin, önemli bir ek yük, genellikle yeni ve güncellenmiş belgelerden küçük dizinler oluşturmak ve küçük dizinleri ana dizinle periyodik olarak birleştirmek ile ilişkilidir ve bu tür sistemler, belge güncellemeleri ile bu belgelerin havuz dizinindeki kullanılabilirliği arasında genellikle uzun gecikmelere maruz kalır.

(2) arşivi güncellerken, büyük bir ek yüke maruz kalmadan, sorguları belge deposuna karşı sürekli olarak işlemenin zorluğu. Bu ikinci engelin bir yönü, hem sorguları yürüten dizileri hem de belge deposunu güncelleyen dizileri veri deposundaki anahtar veri yapılarıyla senkronize etme ihtiyacıdır. Sorgu dizilerini ve veri havuzu güncelleme dizilerini senkronize etme ihtiyacı, doküman güncellemeleri sık sık yapılıyorsa doküman havuzunun verimli çalışmasına önemli bir engel teşkil edebilir ve bu da doküman havuzunun tazeliğini korumanın önünde bir engeldir.

Patente ulaşmak ve tamamını okumak için işte bir bağlantı:

Belge havuzundaki belgeleri güncellemek ve geçersiz belgelerden depolama alanını kurtarmak için belge koşu bandı sistemi ve yöntemi
Mucitler: Michael Burrows ve Jeffrey A. Dean
Devir: Google Inc.
ABD Patenti 7.617.226
Verildi: 10 Kasım 2009
Dosya: 10 Şubat 2006

Soyut

Bir belirteç alanı deposu, belgeleri bir dizi belirteç olarak depolar. Belirteç alanı deposu ve belirteç alanı deposu için ters çevrilmiş dizin, bir birinci ucu ve bir ikinci ucu olan ve ikinci uçta eklemelere ve ön uçtan silmelere izin veren bir veri yapısı kullanır. Belirteç alanı deposundaki bir belge, güncellenmiş sürüm ikinci uçtaki depoya eklenerek ve önceki sürüm geçersiz kılınarak güncellenir. Geçersiz kılınan belgeler hemen silinmez; daha sonra çöp toplama için bir çöp toplama listesinde tanımlanırlar. Belirteç alanı deposu, geçersiz kılınan belgeleri ön uca kaydırmak için çalıştırılır, bu noktada bunlar silinebilir ve depolama alanları kurtarılabilir.

koşu bandı

Bu patenti okuduğumda, dikkatimi çeken kelimelerden biri, Google'ın dizininde verilerin nasıl işlendiğini açıklamak için kullanılan "koşu bandı" idi:

Silme işlemi yalnızca ön uçtaki verilere yapılabileceğinden, hücrelerdeki veriler periyodik olarak "çarpılır". Yani ön uçtaki geçerli veriler arka uca kopyalanır ve ön uçtaki orijinal geçerli veriler silinir. Ön uçtan gelen geçerli veriler arka uca taşındığından, ön uç ile arka uç arasındaki hücrelerdeki veriler mantıksal olarak ön uca kaydırılır ve gerektiğinde silinebilir. Bu nedenle, koşu bandı, artık geçerli olmayan veriler (bazen eski veriler olarak adlandırılır) tarafından işgal edilen bellek alanının kurtarılmasına yardımcı olur. Koşu bandıyla ilgili daha fazla bilgi, Şekiller 1 ve 2'ye ilişkin olarak aşağıda açıklanmıştır. 13-15.

Patentin geri kalanı, bu indeksleme sisteminin nasıl çalıştığı hakkında daha fazla ayrıntı sağlıyor ve onu okuduktan sonra, kendimi Kafein hakkında mı konuşuyor ve Kafein hala Google tarafından mı kullanılıyor diye merak ederken buldum. Geçtiğimiz birkaç gün içinde, Google sözcüsü Gary Illyes, Google'ın dizin oluşturucusu Kafein'e, bunun hâlâ önemli olduğunu ve Google tarafından kullanılmaya devam edildiğini gösteren şekillerde atıfta bulunan birkaç şifreli Tweet attı:

Gary Illyes Kafein Tweetleri