Google, Soru-Cevap Sayfalarından Varlık İlişkisi Bilgilerini Nasıl Alabilir?
Yayınlanan: 2019-10-30Soru-cevap web siteleri, bir arama motoruna varlıklar hakkında bilgi ve bu varlıklar ve diğer varlıklar ve varlıkların özellikleri hakkında varlık-ilişki bilgileri sağlamada ne kadar yardımcı olabilir?
Google'ın yakın zamanda verdiği bir patent, bu tür potansiyel bilgi kaynaklarına bakıyor ve bize daha fazlasını anlatıyor.
Bu patentin mucitlerinden biri olan Evgeniy Gabrilovich, Google'ın varlıklar hakkında web'deki metinlerden ilişki bilgilerini çıkarmak gibi şeylerden bahseden bilgi kasası projesinde çalıştı. Web'den varlık-ilişki bilgilerinin çıkarılması hakkında ne söylediğini görmek için bilgi kasası projesinin geliştirilmesi sırasında hazırlanan bir sunuma bakmaya değer. Şurada bulunabilir: Web Ölçekli Bilgi Grafiklerini Oluşturma ve Madencilik
Kurumlar Arası Aday İlişkileri
22 Ekim 2019'da Google'a verilen bu patent, bu tür sitelerin varlıklar arasındaki ilişkiler hakkında bilgi sağlamak için kaynak olarak nasıl kullanılabileceğini anlatıyor, örneğin “Barack Obama kiminle evli?” Bu sayfa aynı zamanda "Michelle Obama" cevabını da içerebilir.
Patent, bu tür sayfaların ilgili soruya bakarak varlık ilişkilerini tanımlayabileceğine işaret ediyor:
Soru metnine dayalı olarak bir ilişki türü belirlenir; örneğin, soru metnindeki "evli" terimlerinin, soru metninde belirtilen bir varlık ile cevap metninde belirtilen bir varlık arasındaki eş ilişkisini belirtme olasılığı belirlenerek. Varlıklar ayrıca soru metninden ve cevap metninden de tanımlanır. Örneğin, bilgisayar sistemi soru metninden “Barack Obama” varlığını ve cevap metninden “Michelle Obama” varlığını tanımlayabilir.
Bir ilişki türü ve soru-cevap metni tarafından tanımlanan iki varlık belirlendikten sonra bir aday ilişkisi belirlenir. Örneğin belirlenen aday ilişkisi, “Barack Obama” ve “Michelle Obama” tüzel kişilikleri arasında bir eş ilişkisi olabilir.
Olası Cevaplardan Aday Cevaplara Geçiş
Patent bize, bir Soru-Cevap sitesinin, "Michelle Obama", "Hillary Clinton" veya "Laura Bush"u içerebilecek, Barack Obama ile bir eş ilişkisi hakkındaki bir soruya olası bir dizi olası yanıt gösterebileceğini söylüyor.
Google, hangi adayın cevabının en olası olduğuna nasıl karar verebilir?
Google, aday ilişkilerinin her birini "aday ilişkisinin Soru-Cevap Web Sitelerinin web sayfalarından belirlendiği sıklığa göre puanlayabilir. Patent bize şunu söylüyor:
En yüksek puana sahip aday ilişki, belirli ilişki türü ve varlık için en olası geçerli ilişki olarak seçilir. Örneğin, “Barack Obama” ile “Michelle Obama” arasındaki aday eş ilişkisinin “Barack Obama” işletmesi için en sık meydana gelen eş ilişkisi olduğunun belirlenmesine dayanarak, bilgisayar sistemi “Barack Obama” arasında bir eş ilişkisinin varlığını tespit etmektedir. ve "Michelle Obama." Bilgisayar sistemi daha sonra bir varlık-ilişki modelinde “Barack Obama” varlığı ile “Michelle Obama” varlığı arasında bir eş ilişkisi kurabilir.
Bu patentte açıklanan süreçle ilgili yenilikçi olan nedir? Bize bu adımların şöyle olduğunu söyler:
- Bir kaynak elde etme eylemlerini içerir.
- Soru olarak nitelendirilen kaynağın metninin ilk bölümünü belirleme
- Sorunun cevabı olarak nitelendirilen kaynağın metnin ikinci kısmı
- Metnin soru olarak nitelendirilen ilk bölümünün bir veya daha fazla terimiyle atıfta bulunulan bir varlığın belirlenmesi
- Metnin soru olarak nitelendirilen ilk bölümündeki bir veya daha fazla başka terimle atıfta bulunulan bir ilişki türü
- Metnin ikinci kısmı tarafından atıfta bulunulan ve sorunun cevabı olarak nitelendirilen bir varlık
- Metnin soru olarak nitelendirilen ilk bölümünün bir veya daha fazla terimi tarafından referans verilen varlık ve karakterize edilen metnin ikinci kısmı tarafından atıfta bulunulan varlık için ilişki türündeki bir ilişkiyle ilişkili bir puanı ayarlama sorunun cevabı olarak

Bu süreç, soru-cevap (Soru-Cevap) web sitelerini kullanır
Soru-Cevap sitesindeki her şablonun belirli bir ilişki türüyle ilişkilendirilebileceği soruda görüntülenen ilk varlığı ve ilişki türünü belirlemek için sorulara şablonlar olarak bakar.
Bu varlık ilişkisi bilgi patenti şu adreste bulunabilir:
Soru-cevap web sitelerinden bilgi çıkarma
Mucitler: Wei Lwun Lu, Denis Savenkov, Amarnag Subramanya, Jeffrey Dalton, Evgeniy Gabrilovich, Eugene Agichtein
Atanan: Google LLC
ABD Patenti: 10,452,694
Verildi: 22 Ekim 2019
Dosya: 20 Aralık 2017
Soyut
Bir kaynak elde etmek için yöntemler, sistemler ve aygıtlar, kaynak metninin bir soru olarak nitelendirilen ilk kısmını ve sorunun cevabı olarak nitelendirilen kaynağın ikinci bir kısmını tanımlayan, bir varlığı tanımlayan, bir varlığı tanımlayan. Soru olarak nitelendirilen metnin bir veya daha fazla terimi tarafından başvuruda bulunulursa, soru olarak nitelendirilen metnin bir veya daha fazla terimi tarafından başvuruda bulunulan bir ilişki türü ve metin tarafından başvurulan bir varlıktır. sorunun cevabı olarak karakterize edilir ve soru olarak nitelendirilen metnin bir veya daha fazla terimi tarafından atıfta bulunulan varlık ve metin tarafından atıfta bulunulan varlık için ilişki türündeki bir ilişki için bir puan ayarlama. sorusunun cevabı olarak tanımlanır.
Varlık İlişkisi Bilgi Modelleri
Bu patentin odak noktası, belirlenen Soru-Cevap web sitesi kaynakları olan ilişkileri belirten bir varlık-ilişki modeli oluşturmaktır.
Bu sistem şunları içerir:
Soru-Cevap kaynak veritabanı
Soru-Cevap kaynak seçici
Soru-Cevap sınıflandırıcı
Bir cümle ayrıştırıcı
Bir varlık tanımlayıcısı
Bir ilişki tanımlayıcısı
bir toplayıcı
Aday ilişkileri veritabanı
Bir ilişki seçici
Bir varlık-ilişki modeli.
Varlık-ilişki modelinde temsil edilen varlıklar, kenarlar olarak temsil edilen varlıklar arasındaki ilişkilerle düğümler olarak temsil edilebilir. Varlık ilişkileriyle ilgili güven puanları, bu ilişkilerin doğru olmasının muhtemel doğruluğunun bir göstergesidir.
Soru-Cevap web sitesi kaynaklarından varlık-ilişki bilgilerini çıkarırken, bu sistem Soru-Cevap web sitelerinden birden fazla kaynak içeren bir Soru-Cevap kaynak veritabanına bakabilir.
Bu kaynaklar şunları içerebilir:
- Soru-Cevap web sitelerinden 0 web sayfalarının sayısı, örneğin Soru-Cevap web sitelerinin web sayfalarının arşivlenmiş sürümleri
- Soru-Cevap web sitelerinin web sayfalarıyla ilgili meta veriler
- Soru-Cevap web sitelerinde erişilebilen belgeler
- Soru-Cevap web sitelerinde erişilebilen resimler
- Soru-Cevap web sitelerinde erişilebilen videolar
- Ses, Soru-Cevap web sitelerinde erişilebilir
- Soru-Cevap web siteleriyle ilişkili veya bu web sitelerinden erişilebilen diğer kaynaklar
Soru-Cevap kaynak veritabanı, Soru-Cevap web siteleri dışındaki kaynaklardan gelen kaynakları da içerebilir, örneğin:

- Forum web sitelerinden bir veya daha fazla kaynak
- Sosyal ağ platformları
- Sık sorulan sorular (SSS) web siteleri veya SSS web sayfaları
- bilgilendirici web siteleri
- Soruların ve cevapların bulunduğu diğer kaynaklar
Bu soru tanımlayıcı, kimlik varlıkları ve bunlar arasındaki ilişkilerle ilgili soruları ve yanıtları ararken, soru işareti gibi belirli karakterlerin veya karakter dizilerinin varlığını bulmak için bir Soru-Cevap sayfasındaki metni ayrıştırmaya başlayabilir. Ayrıca aşağıdaki gibi soru metnini belirten kelimeleri veya soruları da arayabilir:
- "Merak ediyordum"
- "Soruyorum"
- "soru"
- "kim"
- "ne"
- "nerede"
- "ne zaman"
- "Niye"
- "nasıl"
- vb.
Aynı şekilde, cevaplar arandığında, sayfalardaki metinler, cevap metnini belirtebilecek kelimeleri bulmak için ayrıştırılabilir, örneğin:
- "Biliyorum"
- "İnanıyorum"
- "Bence"
- "Cevap"
- "Cevap"
- vb.
Bu sürecin, konuşmanın bölümlerini etiketleyen bir doğal dil işleme yaklaşımında bir sayfadaki metni ayrıştırmayı içeren kısmı:
Örnek olarak, cümle ayrıştırıcı “Barack Obama kiminle evli?” Soru metnini alabilir. ve soru metnine “WHO/zamir IS/fiil BARACK OBAMA/isim EVLİ/sıfat TO/fiil?” şeklinde açıklama ekleyebilir. Benzer şekilde, cümle ayrıştırıcı "Michelle Obama" yanıt metnini alabilir ve yanıt metnine "MICHELLE OBAMA/isim" olarak açıklama ekleyebilir. Cümle ayrıştırıcı ayrıca açıklamalı metinlerdeki bir veya daha fazla gramer biriminin bir sınıfını veya hipernimini belirleyebilir, örneğin, "Barack Obama" terimlerinin bir "kişi" isim sınıfı oluşturduğunu ve "Michelle Obama" terimlerinin de aşağıdakileri oluşturduğunu belirlemek için. bir "kişi" isim sınıfı.
Soru ve cevap metinlerini ayrıştırdıktan sonra, cümle ayrıştırıcı açıklamalı soru ve cevap metinlerini varlık tanımlayıcısına ve ilişki tanımlayıcısına sağlar. Alternatif uygulamalarda, soru metni ve/veya cevap metni, cümle ayrıştırıcısı tarafından işlenmeden varlık tanımlayıcısına ve ilişki tanımlayıcısına sağlanabilir. Bu tür uygulamalarda, varlık tanımlayıcısı ve/veya ilişki tanımlayıcısı, cümle ayrıştırıcısı tarafından gerçekleştirilenlere benzer işlemleri gerçekleştirebilir veya soru metni veya cevap metnine açıklama eklenmeden soru metninden ve/veya cevap metninden varlıkları veya ilişkileri tanımlayabilir. Bu gibi durumlarda, Soru-Cevap sınıflandırıcısı, varlık tanımlayıcısına ve ilişki tanımlayıcısına soru ve cevap metinleri sağlayabilir.
Belirlenen soru metni ve cevap metni, bir Soru-Cevap sayfasında sorulan ve cevaplanan varlık-ilişki türünü tanımlayabilir.
Bir cevabın soru metninden ve cevap metninden nasıl ayrıştırılabileceğine dair başka bir örnek:
Örneğin, varlık tanımlayıcısı "Barack Obama kiminle evli?" Soru metnini alabilir. ve "Barack Obama" varlığını tanımlayın ve "Eşi Michelle Obama ile Beyaz Saray'da yaşıyor" yanıt metnini alabilir ve "Michelle Obama" ve "Beyaz Saray" varlıklarını tanımlayabilir. Varlık tanımlayıcı, "Barack Obama" ve "Michelle Obama" varlıklarının her birinin bir "kişi" isim sınıfından olduğunu ve "Beyaz Saray" varlığının bir "yer" isim sınıfından olduğunu belirleyebilir. Varlık tanımlayıcı, her iki varlığın da "kişi" isim sınıfından olmasına ve dolayısıyla bir şekilde belirli bir kişinin olduğundan daha fazla ilişkili olmasına dayalı olarak potansiyel olarak ilişkili varlıklar olarak "Barack Obama" ve "Michelle Obama" varlıklarını seçebilir. belirli bir yerle ilgili olmak.
Bunun gibi bir yaklaşım kullanılarak başka ne tür varlık-ilişki bilgisi bulunabilir?
- eş ilişkileri
- aile ilişkileri
- siyasi ilişkiler
- İş ilişkileri
- Mülkiyet ilişkileri
- ikamet ilişkileri
- Doğum yeri ilişkileri
- Çalışan/işveren ilişkileri
- mesleki ilişkiler
- İnsanlar, yerler veya şeyler arasındaki diğer ilişkiler
Diğer bazı Varlık İlişkisi Bilgileri türleri
Belirli varlıklar ve sayısal değerler veya tarihler arasında. Bu tür sayısal değerler şunları içerebilir:
- Bir kişinin yaşı
- net değer
- Jersey numarası
- Yükseklik
- Doğum tarihi
- evlilik tarihi
- Ölüm tarihi
- İş kurma tarihi
- Nüfusu büyük olan şehir
- vb.
Bir "eşleştirici", belirli bir sorunun ilişki tanımlayıcısı tarafından erişilebilen belirli bir şablona uyup uymadığını belirleyebilir ve "[KİŞİ] kiminle evli?" gibi bir şablon oluşturabilir. hakkında bilgi toplamak için bir ilişki.
Patent bize bu şablonların şablonlarla doğru türdeki varlıkları eşleştirmeye çalışacağını söyleyerek bir noktaya değinmeye çalışır, bu nedenle bir yeri belirtebilecek bir varlık, bir eş ilişkisi türünü belirleyen bir ilişki tanımlayıcısı ile çalışmayabilir, örnek vererek : “Amerika kiminle evli?”
Bu Sorguyu denedim ve beklenmedik bir cevap aldım:

Çözüm
Google, BERT adlı bir doğal dil işleme yaklaşımı kullandığını duyurdu. Mayıs ayında Google'da Semantic Frames ve Word Embeddings yazısını yazarken bu yaklaşımdan bahsetmiştim. Bu patent, Soru-Cevap sayfalarındaki soruları ve cevapları anlamak için doğal dil işlemenin nasıl kullanılabileceğine ve bunların varlıklar ve varlıkların özellikleri arasındaki ilişkileri tanımlamak için bilinen bazı şablonlara uyup uymadığına dair iyi bir örnek sağlar.
Patent, varlıklar arasındaki ilişkiler veya bu varlıkların özellikleri hakkında daha fazla güven duygusu kazanmaya nasıl çalışabileceğine dair bazı ek örnekler sağlar. Ancak bu patent, varlık-ilişki bilgilerinin Soru-Cevap web sitelerinden nasıl çıkarılabileceğini oldukça açıklayıcıdır.
