วิธีที่ Google ประมวลผลการสืบค้นข้อมูล: ทรัพยากรการแก้ไขเอนทิตี

เผยแพร่แล้ว: 2017-07-18

Google ดำเนินการแก้ไขเอนทิตีเพื่อทำความเข้าใจเอนทิตีที่เห็นในการสืบค้น

เว็บเต็มไปด้วยหน่วยงานต่างๆ – ข้อมูลเกี่ยวกับผู้คน สถานที่ และสิ่งของต่างๆ เครื่องมือค้นหาอาจรวบรวมความรู้เกี่ยวกับการเชื่อมต่อระหว่างหน่วยงาน ในการนำเสนอ Google ทำงานอย่างไร Paul Haahr ของ Google บอกเราว่า Google จะพยายามระบุหน่วยงานที่ปรากฏในข้อความค้นหา งานนำเสนอของเขาเป็นมากกว่าแค่การรวบรวมข้อมูลเว็บและการค้นหาลิงก์ในหน้าต่างๆ และแนะนำให้ดู

สิทธิบัตรที่ให้กับ Google เมื่อวันที่ 4 กรกฎาคมมุ่งเน้นไปที่การมีอยู่ของหน่วยงานในการค้นหาและทำความเข้าใจสิ่งเหล่านั้น โดยมุ่งเน้นไปที่สิ่งที่เรียกว่าการแก้ไขเอนทิตีหรือสิ่งที่เอนทิตีในคิวรีอาจหมายถึง เมื่อฉันดูสิทธิบัตร ฉันรู้สึกประทับใจกับจำนวนการอ้างอิงที่ผู้ขอสิทธิบัตรยื่นพร้อมกับสิทธิบัตร และฉันต้องการอ่านข้อมูลเหล่านั้น ฉันคิดว่าพวกเขาควรค่าแก่การแบ่งปันกับผู้อื่นเช่นกัน ไม่ใช่เพื่อพิสูจน์ประเด็นใดประเด็นหนึ่งหรือแสดงจุดยืนหรือความคิดเห็นเฉพาะ แต่เพื่อให้ทุกคนที่เต็มใจสละเวลาอ่านเนื้อหาเพื่อดูเอกสารล่าสุดและงานวิจัยที่เกี่ยวข้องกับการแก้ปัญหานิติบุคคล ฉันได้อ่านบางส่วนของเหล่านี้และจะอ่านเพิ่มเติม เอกสารเหล่านี้บางส่วนเขียนร่วมกันโดยนักวิจัยของ Google หากคุณพบอะไรที่ทำให้คุณประหลาดใจ โปรดแบ่งปันในความคิดเห็น การทำความเข้าใจเอนทิตีในคิวรีนั้นสมเหตุสมผลมาก เนื่องจากกระบวนการนั้นสามารถใส่การสืบค้นเหล่านั้นในบริบทได้ การมีความรู้สึกว่า Google อาจประมวลผลการสืบค้นข้อมูลอาจให้แนวคิดบางอย่างที่นอกเหนือไปจากคะแนนการดึงข้อมูลและคะแนน PageRank สำหรับหน้าเว็บ Google มีการปรับเปลี่ยนบริบทสำหรับการมีอยู่ของเอนทิตีในข้อความค้นหาอย่างไร

ตัวอย่างเช่น นิวคาสเซิลอาจหมายถึงสโมสรฟุตบอลนิวคาสเซิล อะพอน ไทน์ สหราชอาณาจักร สโมสรฟุตบอลนิวคาสเซิล ยูไนเต็ด หรือเครื่องดื่มนิวคาสเซิล บราวน์ Ale บริบทอาจช่วยในการแก้ความกำกวมข้อความอ้างอิง ตัวอย่างเช่น หากข้อความอ้างอิงมีบริบทของ "จอห์นเล่นให้นิวคาสเซิล" การกล่าวถึงเป็นไปได้มากที่สุดที่สโมสรฟุตบอล ในขณะที่ "จอห์นเกิดที่นิวคาสเซิล" มักหมายถึงสถานที่ ฯลฯ

เรารู้ว่า Google พยายามทำความเข้าใจบริบทในการพัฒนาคำหลักให้ดีขึ้น ตามที่ฉันเขียนไว้ใน Google Patents Context Vectors เพื่อปรับปรุงการค้นหา สิทธิบัตรจาก Google เกี่ยวกับการทำความเข้าใจบริบทของเอนทิตีให้ดีขึ้นสามารถเพิ่มความหมายให้กับหน้าต่างๆ และสิ่งที่เสิร์ชเอ็นจิ้นรู้เกี่ยวกับหน้าเหล่านั้น จุดเน้นของสิทธิบัตรใหม่นี้อยู่ที่การสร้างแบบจำลองที่สามารถช่วยในการทำความเข้าใจคำถามโดยใช้การแก้ไขเอนทิตี:

แบบจำลองทำนายความน่าจะเป็นของเหตุการณ์บางเหตุการณ์ที่ได้รับจากการสังเกต สามารถใช้อัลกอริธึมการเรียนรู้ของเครื่องเพื่อฝึกพารามิเตอร์ของแบบจำลองได้ ตัวอย่างเช่น โมเดลอาจจัดเก็บชุดคุณลักษณะและคะแนนสนับสนุนสำหรับแต่ละเอนทิตีที่แตกต่างกัน คะแนนสนับสนุนแสดงถึงคะแนนความน่าจะเป็นที่แบบจำลองได้เรียนรู้ ความน่าจะเป็นที่คุณลักษณะนี้จะเกิดขึ้นเมื่อพิจารณาจากเอนทิตี โมเดลที่ใช้ในการแก้ไขเอนทิตีอาศัยองค์ประกอบสามประการ: โมเดลการกล่าวถึง โมเดลบริบท และโมเดลการเชื่อมโยงกัน โมเดลดังกล่าวแสดงถึงความเชื่อก่อนหน้าที่ว่าวลีหนึ่งๆ หมายถึงเอนทิตีเฉพาะในกราฟข้อมูล โมเดลบริบทอนุมานเอนทิตีที่น่าจะเป็นไปได้มากที่สุดสำหรับการกล่าวถึงโดยพิจารณาจากบริบทที่เป็นข้อความของการกล่าวถึง ในรูปแบบบริบท คุณลักษณะแต่ละอย่างสามารถแสดงวลีที่เป็นส่วนหนึ่งของบริบทสำหรับการกล่าวถึงเอนทิตี ตัวอย่างเช่น วลี "ประธานาธิบดี" อาจมีคะแนนสนับสนุน (หรือคะแนนความน่าจะเป็น) สำหรับเอนทิตีของ "บารัค โอบามา" "บิล คลินตัน" "นิโคลัส ซาร์โกซี" และอื่นๆ อีกมากมาย ในทำนองเดียวกัน วลี "เล่นเพื่อ" อาจมีคะแนนสนับสนุนสำหรับวงดนตรี ทีม ฯลฯ ต่างๆ บริบทที่กล่าวถึงข้างต้นอาจแสดงด้วยชุดของคุณลักษณะหรือวลี ที่เกิดขึ้นร่วมกับ (เช่น เกิดขึ้นรอบๆ) ข้อความอ้างอิง หรือการกล่าวถึงนิติบุคคล โมเดลการเชื่อมโยงกันพยายามบังคับนิพจน์ที่อ้างอิงทั้งหมดในเอกสารเพื่อแก้ไขเอนทิตีที่เกี่ยวข้องกันในกราฟข้อมูล แต่แบบจำลองการเชื่อมโยงกันทำให้เกิดการขึ้นต่อกันระหว่างการแก้ปัญหาของการกล่าวถึงทั้งหมดในเอกสาร และต้องการให้ความสัมพันธ์ของเอนทิตีที่เกี่ยวข้องในกราฟข้อมูลพร้อมใช้งานในเวลาอนุมาน ซึ่งจะเป็นการเพิ่มต้นทุนการอนุมานและการเข้าถึงแบบจำลอง

สิทธิบัตรการแก้ไขเอนทิตีคือ:

โมเดลบริบทเพิ่มเติมสำหรับการแก้ไขเอนทิตี
ผู้ประดิษฐ์: อมาร์นาก สุบรามันยา, ไมเคิล ริงการ์ด และเฟอร์นันโด คาร์ลอส ดาส เนเวส เปเรยร่า
ผู้รับมอบหมาย: Google
สิทธิบัตรสหรัฐอเมริกา: 9,697,475
ได้รับ: 4 กรกฎาคม 2017
ยื่น: 23 ธันวาคม 2013

เชิงนามธรรม:

มีการเปิดเผยระบบและวิธีการสำหรับการใช้แบบจำลองบริบทเพิ่มเติมสำหรับการแก้ความกำกวมเอนทิตี ตัวอย่างวิธีการอาจรวมถึงการรับช่วงของข้อความจากเอกสารและเวกเตอร์วลีสำหรับช่วง เวกเตอร์วลีอาจมีคุณลักษณะหลายอย่างและแสดงถึงบริบทสำหรับช่วง วิธีการนี้ยังรวมถึงการกำหนดจำนวนของเอนทิตีผู้สมัครจากฐานความรู้ที่ได้รับการอ้างอิงตามช่วง สำหรับแต่ละจำนวนของเอนทิตีผู้สมัคร วิธีการอาจรวมถึงการกำหนดคะแนนการสนับสนุนสำหรับเอนทิตีผู้สมัครสำหรับแต่ละคุณลักษณะในเวกเตอร์วลี รวมคะแนนสนับสนุนเพิ่มเติม และคำนวณความน่าจะเป็นที่ช่วงแก้ไขให้กับเอนทิตีผู้สมัครตามบริบท . วิธีการนี้อาจรวมถึงการแก้ไขช่วงไปยังเอนทิตีของผู้สมัครที่มีความน่าจะเป็นสูงสุด

การอ้างอิงผู้สมัคร

เมื่อฉันเห็นเอกสารทั้งหมดที่อ้างถึงในสิทธิบัตรนี้ ฉันต้องการอ่านทั้งหมด และแบ่งปันลิงก์ไปยังเอกสารเหล่านี้ เอกสารเหล่านี้เป็นเอกสารที่ผู้นำในอุตสาหกรรมการค้นหาเป็นผู้เลือก และการมีลิงก์ไปยังเอกสารเหล่านี้เป็นวิธีเจาะลึก งานวิจัยล่าสุดเกี่ยวกับการแก้ไขเอนทิตี ฉันจะผ่านสิ่งเหล่านี้ในสัปดาห์หน้า ฉันมองว่าเป็นโอกาสในการเรียนรู้จากแหล่งข้อมูลที่ดีที่สุด หากมีสิ่งใดโดดเด่นเกี่ยวกับเอกสารเหล่านี้ ฉันต้องการทราบความคิดเห็นของคุณเกี่ยวกับเอกสารเหล่านี้

Chu, et al, “Map-Reduce for Machine Learning on Multicore”, In NIPS, 2006, pp. 281-288. อ้างโดยผู้สมัคร

Friedman, et al, “Additive Logistic Regression: A Statistical View of Boosting”, กระดาษเชิญพิเศษ, พงศาวดารของสถิติ, ฉบับที่. 28 ฉบับที่ 2, 2000, หน้า 337-407. อ้างโดยผู้สมัคร

“ Ambiverse: AIDA: การแก้ความกำกวมออนไลน์ที่แม่นยำของเอนทิตีที่มีชื่อในข้อความและตาราง”, Max Planck Institut Informatik ออนไลน์ได้ที่ http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/r - esearch/yago-naga/aida/, 2013, 4 หน้า อ้างโดยผู้สมัคร

Baluja et al., “Video Suggestion and Discovery for YouTube: Making Random Walks Through the View Graph”, International Conference on World Wide Web (WWW 2008), 21-25 เมษายน 2008, 10 หน้า อ้างโดยผู้สมัคร

Bollacker et al., “Freebase: A Collaboratively Created Graph Database for Structuring Human Knowledge”, Proceedings of the ACM SIGMOD International Conference on Management of Data, 9-12 มิ.ย. 2551, หน้า 1247-1249 อ้างโดยผู้สมัคร

Bunescu et al., “Using Encyclopedic Knowledge for Named Entity Disambiguation”, Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, เม.ย. 2549, หน้า 9-16 อ้างโดยผู้สมัคร

Cucerzan, Silviu, "การแก้ความกำกวมเอนทิตีที่มีชื่อขนาดใหญ่ตามข้อมูล Wikipedia", การดำเนินการประชุมร่วมเกี่ยวกับวิธีการเชิงประจักษ์ใน ze et al.,

“Entity Disambiguation for Knowledge Base Population”, Proceedings of the 23rd International Conference on Computational Linguistics, ส.ค. 2010, pp. 277-285. อ้างโดยผู้สมัคร

Duchi et al. “การเรียนรู้แบบออนไลน์และแบบกลุ่มอย่างมีประสิทธิภาพโดยใช้การแยกไปข้างหน้า-ข้างหลัง” วารสารการวิจัยการเรียนรู้ด้วยเครื่อง 10, 2552, น. 2899-2934. อ้างโดยผู้สมัคร

Ferragina et al., “TAGME: On-the-fly Annotation of Short Text Fragments (by Wikipedia Entities)”, Proceedings of the 19th ACM International Conference on Information and Knowledge Management, 26-30 ต.ค. 2010, หน้า 1625- 1628. อ้างโดยผู้สมัคร

Finin et al., “Using Wikitology for Cross-Document Entity Coreference Resolution”, Association for the Advancement of Artificial Intelligence, 2009, หน้า 29-35 อ้างโดยผู้สมัคร

Finkel et al., “การรวมข้อมูลที่ไม่ใช่ในท้องถิ่นเข้ากับระบบการแยกข้อมูลโดย Gibbs Sampling”, การดำเนินการของการประชุมประจำปีครั้งที่ 43 ของ ACL, มิ.ย. 2548, 363-370 อ้างโดยผู้สมัคร

Gabrilovich et al., “การควบคุมความเชี่ยวชาญของบรรณาธิการมนุษย์ 70,000 คน: การสร้างคุณสมบัติตามความรู้สำหรับการจัดหมวดหมู่ข้อความ”, วารสารการวิจัยการเรียนรู้ด้วยเครื่อง, ฉบับที่. 8, 2550, น. 2297-2345. อ้างโดยผู้สมัคร

Hachey et al., “การประเมินเอนทิตีที่เชื่อมโยงกับวิกิพีเดีย”, ปัญญาประดิษฐ์, ฉบับที่. 194 2556 น. 130-150. อ้างโดยผู้สมัคร

Haghighi et al., “Simple Coreference Resolution with Rich Syntactic and Semantic Features”, Proceedings of Conference on Empirical Methods in Natural Language Processing, 6-7 ส.ค. 2552, หน้า 1152-1161 อ้างโดยผู้สมัคร

Han et al., “A Generative Entity-Mention Model for Linking Entities with Knowledge Base”, การประชุมประจำปีครั้งที่ 49 ของ Association for Computational Linguistics: Human Language Technologies–vol. 1, 19-24 มิ.ย. 2554, หน้า 945-954. อ้างโดยผู้สมัคร

Han et al., “An Entity-Topic Model for Entity Linking”, Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, Jul. 12-14, 2012, pp. 105-115. อ้างโดยผู้สมัคร

Han et al., “Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge”, Proceedings of the 18th ACM Conference on Information and Knowledge Management, 2-6 พ.ย. 2552, หน้า 215-224 อ้างโดยผู้สมัคร

Hoffart et al., “Rebust Disambiguation of Named Entities in Text”, Proceedings of Conference on Empirical Methods in Natural Language Processing, Jul. 27-31, 2011, pp. 782-792. อ้างโดยผู้สมัคร

Kulkarni et al. "คำอธิบายประกอบรวมของหน่วยงาน Wikipedia ในข้อความบนเว็บ" การดำเนินการของการประชุมนานาชาติ ACM ครั้งที่ 15 เกี่ยวกับการค้นพบความรู้และการขุดข้อมูล 28 มิ.ย. - ก.ค. 1, 2552, หน้า 457-466. อ้างโดยผู้สมัคร

Kwiatkowski et al., “Lexical Generalization in CCG Grammar Induction for Semantic Parsing”, Proceedings of Conference on Empirical Methods in Natural Language Processing, Jul. 27-31, 2011, pp. 1512-1523. อ้างโดยผู้สมัคร

Lin et al., “Entity Linking at Web Scale”, Proc. สืบค้นจาก: ของ Joint Workshop on Automatic Knowledge Base Construction & Web-scale Knowledge Extraction, Jun. 7-8, 2012, pp. 84-88. อ้างโดยผู้สมัคร

Mayfield et al., “Cross-Document Coreference Resolution: A Key Technology for Learning by Reading”, Spring Symposium on Learning by Reading and Learning to Read, มี.ค. 2009, 6 หน้า อ้างโดยผู้สมัคร

Mihalcea et al., “Wikiify! Linking Documents to Encyclopedic Knowledge", Proceedings of the 16th ACM Conference on Information and Knowledge Management, 6-8 พ.ย. 2550, หน้า 233-241 อ้างโดยผู้สมัคร

Milne et al., “Learning to Link with Wikipedia”, Proceedings of the 17th ACM Conference on Information and Knowledge Management, 26-30 ต.ค. 2551, หน้า 509-518 อ้างโดยผู้สมัคร

Nigam et al., “การจำแนกข้อความจากเอกสารที่ติดฉลากและไม่ติดฉลากโดยใช้ EM”, การเรียนรู้ของเครื่อง, ฉบับที่. 39, 2000, น. 103-134. อ้างโดยผู้สมัคร

Orr et al. “การเรียนรู้จาก Big Data: 40 ล้านเอนทิตีในบริบท” ออนไลน์ได้ <https://research.googleblog.com/2013/03/learning-from-big-data-40-milion.html > 8 มี.ค. 2556 6 หน้า. อ้างโดยผู้สมัคร

Ratinov et al., “Local and Global Algorithms for Disambiguation to Wikipedia”, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 19-24 มิ.ย. 2554, หน้า 1375-1384 อ้างโดยผู้สมัคร

Sil et al., “Linking Named Entities to Any Database”, Proceedings of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 12-14 ก.ค. 2555, หน้า 116-127 อ้างโดยผู้สมัคร

Subramanya et al., “Semi-Supervised Learning with Measure Propagation”, วารสารการวิจัยการเรียนรู้ของเครื่อง, vol. 12 2011 น. 3311-3370. อ้างโดยผู้สมัคร

Talukdar et al., “การทดลองในวิธีการเรียนรู้กึ่งควบคุมโดยใช้กราฟสำหรับการได้มาซึ่งอินสแตนซ์ของชั้นเรียน”, การดำเนินการประชุมประจำปีครั้งที่ 48 ของสมาคมภาษาศาสตร์เชิงคำนวณ, 11-16 ก.ค. 2010, หน้า 1473-1481 อ้างโดยผู้สมัคร

Talukdar et al., “New Regularized Algorithms for Transductive Learning”, Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases: Part II, 2009, pp. 442-457. อ้างโดยผู้สมัคร

Talukdar et al., “การได้มาซึ่งการดูแลอย่างอ่อนแอของอินสแตนซ์คลาสที่มีป้ายกำกับโดยใช้กราฟสุ่มเดิน”, การดำเนินการประชุมเกี่ยวกับวิธีการเชิงประจักษ์ในการประมวลผลภาษาธรรมชาติ, ต.ค. 2008, หน้า 582-590 อ้างโดยผู้สมัคร

สิทธิบัตรอธิบายถึงกระบวนการในการแก้ความกำกวมของหน่วยงาน แต่สำหรับฉันแล้วดูเหมือนว่าความสามารถในการใช้ทรัพยากรในสิทธิบัตรนั้นมีค่าและมันคุ้มค่าที่จะมุ่งเน้นไปที่แง่มุมของสิทธิบัตรในขณะที่ฉันได้เรียนรู้เพิ่มเติมเกี่ยวกับวิธีการที่พวกเขาทำ ความละเอียดของนิติบุคคล ฉันจะผ่านพวกเขาไป นี่อาจดูเหมือนเป็นการฝึกหัดทางวิชาการ แต่การแก้ไขเอนทิตีเป็นส่วนหนึ่งของวิธีที่ Google จัดการกับคำถามและน่ารู้บางอย่างเกี่ยวกับเรื่องนี้ เมื่อ Google เห็น "New Castle" ในแบบสอบถาม Google ควรทราบว่ามีการอ้างอิงถึงเบียร์หรือทีมหรือสถานที่หรือไม่

คุณจะแสดงสิ่งนั้นต่อเครื่องมือค้นหาอย่างไร