Google, Görselleri Arama Sonuçlarıyla Nasıl İlişkilendirebilir?
Yayınlanan: 2017-04-07
Arama Sonuçları İçin Görseller Nasıl Seçilebilir?
Birkaç yıl önce, Google'ın bazı eski çalışanları (en azından o zamandan beri geri dönen biri), ilk başladığında Google katili olarak adlandırılan Cuil adıyla bir arama motoru başlattı. Arama sonuçlarıyla birlikte görseller göstermesiyle tanınır hale geldi ve bu görseller her zaman iyi seçilmiş veya doğru değildi – Cuil'den gelen arama sonuçlarındaki görsellere yönelik eleştirilerin bir örneği için bu blog gönderisine bakın: Cuil ile ne alakası var?
Google yıllardır haber sonuçlarının yanında görseller gösteriyor. Cuil'in resimlerinde yaptığı hataları yapmaktan nasıl kaçındılar? Bu hafta Google'a, haber sonuçlarında görünen görüntüleri daha doğru hale getirmek için yaptıkları bazı şeyleri tartışan bir Patent verildi.
Patent açıklamasının en üstüne doğru, bize neden haber sonuçlarıyla birlikte görseller gösterdiklerini ve bunu yapmanın zorluklarından birinin ne olduğunu anlatıyorlar:
Haber dokümanları söz konusu olduğunda, kullanıcılar haber dokümanlarıyla bağlantılı bir görsel görmeyi faydalı bulabilirler. Bununla birlikte, çoğu zaman, haber belgeleri, bazıları haber belgelerinin konusuyla ilgili olmayabilecek birden fazla görüntü içerir. Bu, haber belgeleri için uygun görüntülerin otomatik olarak seçilmesini zorlaştırır.
Bize gösterdikleri yeni sonuçlarda doğru ve yardımcı olan görüntüleri kullanmaya çalışmak için üstlendikleri yaklaşımın bir özetini veriyorlar:
Buluşun ilkeleriyle tutarlı bir yönüne göre, bir yöntem, bir belgeyle ilişkili görüntülerin tanımlanmasını, bir dizi aday görüntü oluşturmak için görüntülerin filtrelenmesini, aday görüntülerle ilişkili altyazıların tespit edilmesini ve ilişkilendirilecek aday görüntülerden birinin seçilmesini içerir. tespit edilen altyazılara dayalı belge ile.
Bu yeni verilen patent:
Haber arama için resim seçimi
Mucitler: Hong Zhou, Srdjan Mitroviç, Krishna Bharat, Michael Schmitt ve Michael Curtiss
Devir: Google Inc.
ABD Patenti 9.613.061
Verildi: 4 Nisan 2017
Dosya: 28 Mayıs 2014
Soyut
Bir sistem, birkaç birinci görüntü içeren bir birinci belgeyi tanımlar, birçok ikinci görüntü içeren ikinci bir belgeyi tanımlar ve birinci belge ile ikinci belge arasındaki ilişkiye dayalı olarak bir küme oluşturur. Sistem, ilk görüntülerden biriyle ilişkili bir birinci altyazıyı tanımlar, ikinci görüntülerden biriyle ilişkili ikinci bir altyazıyı tanımlar, ikinci görüntülerden birinin ilk görüntülerinden birini, birinci altyazıya dayalı olarak küme için temsili bir görüntü olarak seçer. veya ikinci resim yazısı ve temsili görüntüyü kümeyle ilişkilendirir.
Haber Tarama Birimi
Patent bize, haber odaklı bir Googlebot'un öncelikle haber belgelerini taramaya odaklanmış olsaydı nasıl davranacağını tasavvur edebileceğimiz konusunda biraz yalan gibi görünen bir "Haber Tarama Birimi"nin davranışı hakkında bilgi veriyor. Haber kaynaklarıyla ilişkilendirebileceği URL'lerle başlayan web'in odaklanmış taramalarına devam edebilir. Haber hikayelerine dahil etmek için bu sayfalardaki görüntüleri yakalar:
Haber tarama birimi, görüntüleri ayıklanan adreslerine göre de tarayabilir ve görüntüleri ve görüntülerle ilgili diğer bilgileri saklayabilir. Örneğin, haber tarama birimleri, görüntülerle ilgili zamansal bilgileri ve referans sayısı bilgilerini elde edebilir. Zamansal bilgi, “stok görselleri” (yani, aynı konuyla ilgili birden fazla haber belgesinde kullanılan görselleri) tanımlamak için faydalı olabilir. Stok görseller, iyi aday görseller olarak nitelendirilebilir. Referans sayısı bilgisi, aynı sunucuda birden fazla haber belgesiyle bağlantılı olan ancak köşe yazarlarının resimleri veya haber kaynağıyla ilgili simgeler gibi haber belgelerinin konularıyla doğrudan ilgili olmayan resimlerin tanımlanması için yararlı olabilir. Yüksek referans sayısına sahip görsellerin iyi aday görseller oluşturmadığı belirlenebilir.
Bu bize, haberlere eşlik eden gördüğümüz resimleri Google'ın nasıl seçebileceği konusunda bir fikir veriyor. Patent, arama sonuçlarında gösterilmek için iyi bir seçim olmayabilecek, tuhaf biçimli ve biçimlendirilmiş resimler veya kaynak haber belgelerinin konusuyla ilgisi olmayan resimler de dahil olmak üzere, iyi aday resimlerin nasıl sıralanabileceğini anlatarak devam ediyor. yakın, örneğin reklamlar veya köşe yazarlarıyla ilgili görüntüler.

Patent ayrıca, belirli bir boyut boyutunun veya en boy oranının altındaki (muhtemelen çok uzun veya çok dar yapan) resimlerin de aday resim (haber sonuçlarında gösterilecek bir aday) olarak hariç tutulabileceğini söylüyor.
Bağlantılı görseller genellikle reklam olduğu için, bağlantı içeren bir görselin aday olarak reddedilebileceği de söylendi.
Haber kaynağının barındırıldığı yerden başka bir yerde barındırılan görseller, bir içerik dağıtım ağından olmadıkça reklam olabilecekleri için aday görseller olarak da reddedilebilir.
Resim Altyazıları
Resimler tarandığında, resimlerin iyi açıklamaları olabileceğinden ve resmin kaynak haber belgesinin konusuyla ilgili olup olmadığını söyleyebileceğinden, resimlerin alt yazıları hakkında bilgi tespit edilebilir.
Bir tablo hücresi gibi HTML etiketleri içinde bir resim ve metin birlikte yakalandığında, bu metin resimle ilişkilendirilebilir. Benzer şekilde, Alt metin görselle ilişkilendirilebilir ve haber sonucu olarak kullanıldığında görsel için alternatif metin olarak kullanılabilir.
Patent bize, bir resim için alternatif metindeki bazı testlerin, resmin yazarının adını tanımlayabilecek bir kelime veya konuyla ilgisi olmayan kelimeler gibi “zehirli” kelimeler içerip içermediğini görmek için analiz edilebileceğini söylüyor. haber belgesi. Alternatif metin zehirli kelimeler içermiyorsa, görüntünün başlığı olarak kullanılabilir.
Görüntü, metin içeren bir tablo hücresi gibi bir HTML kapsayıcısındaysa, bu metin görüntünün (veya komşu bir hücreden alınan metnin) başlığı olarak kullanılabilir.
Bir HTML kapsayıcısını paylaşan bu metin belirli bir eşiği aşarsa veya çok hacimliyse, haber belgesinin bir parçası olabileceğinden, bir başlık olarak kabul edilmeyebilir.
Görüntü Puanları
Patent bize, aday görüntülerin her biri için görüntü puanlarının aşağıdakiler gibi belirli faktörlere dayalı olarak oluşturulabileceğini söylüyor:
- Görüntü boyutu
- haber belgesinin başlığına olan uzaklık
- resim yazısı ve haber belgesinin merkezi arasında bir örtüşme
Ek Filtreler
Ayrıca, haber sonuçlarında bir haber kaynağından alınan görüntünün o habere eşlik edip etmeyeceğine karar vermek için başka filtrelerin kullanılabileceği de söylendi. Bunlar şunları içerebilir:
- metin içeren resimler
- fotoğrafların aksine daha çok küçük resim gibi görünen görüntüler
- hepsi aynı renkte olan resimler
- diğer kriterler
Küme Düzeyinde Görüntüler
Yeni konular genellikle bu konularla ilgili belge kümelerine bölünür.
Patent bize görüntülerin bir küme içindeki konularla ilişkilendirilebileceğini ve bir konu kümesi içindeki en yüksek sıradaki görüntünün o küme içindeki kaynak haber belgesinin sıralamasına göre belirlenebileceğini söyler - haber belgesi bir küme içinde ne kadar yüksek sıralanırsa o kadar yüksek olur. küme, "görüntünün kümeyi temsil etme olasılığı ne kadar yüksekse."
Ayrıca, bir görselin başlığındaki kelimelere bakılabileceği ve resim başlığındaki kelimelerin kümedeki belgelerin gövdesinde kaç kez göründüğü, resmin o görselle ilgili olma ihtimalinin o kadar yüksek olduğu söylendi. kümenin konusu.
Diğer Uygulamalar
Patentin sonuna yakın bir veya daha fazla cümlenin onlar için beklenenden daha fazla anlam ifade edebileceği bazı patentler gördüm. Bu patentte şöyle bir cümle var, bize şöyle diyor:
Ayrıca, haber aramaları bağlamında açıklanmakla birlikte, buluşun ilkeleriyle uyumlu sistemler ve yöntemler, ürün aramaları gibi haber dışı aramalar için geçerli olabilir.
Google'ın, yalnızca Haber Arama dışında, ilişkilendirilen görüntüleri Arama Sonuçlarına uygulamak için patentte açıklanan yöntemlerden bazılarını nasıl kullanabileceğini düşünmek kötü bir fikir olmayacak gibi görünüyor. Cuil'e benziyordu - ama muhtemelen Cuil'den daha iyiydi.
