كيف تعالج Google الاستعلامات: موارد قرار الكيان

نشرت: 2017-07-18

تُجري Google قرار الكيان لفهم الكيانات التي تراها في الاستعلامات

تمتلئ الويب بالكيانات - معلومات حول الأشخاص والأماكن والأشياء. قد يجمع محرك البحث المعرفة حول الاتصالات بين الكيانات. في العرض التقديمي ، How Google Works ، أخبرنا Paul Haahr من Google أن Google ستحاول تحديد الكيانات التي تظهر في الاستعلامات. يتضمن عرضه أكثر من مجرد الزحف إلى الويب وتحديد وجود الروابط على الصفحات ، ويوصى بمشاهدته.

تركز براءة الاختراع التي تم منحها إلى Google في 4 يوليو على وجود الكيانات في الاستفسارات وفهمها. إنه يركز على شيء يسمى حل الكيان أو ما قد يمثله كيان في استعلام. عندما نظرت في براءة الاختراع ، تأثرت بعدد المراجع التي قدمها طالبو البراءة جنبًا إلى جنب مع براءة الاختراع ، وأردت قراءتها. اعتقدت أنهم يستحقون المشاركة مع الآخرين أيضًا. ليس لإثبات نقطة معينة أو اتخاذ موقف أو رأي معين ، ولكن لإعطاء أي شخص يرغب في قضاء الوقت في قراءة المواد لإلقاء نظرة على أحدث الأوراق والبحوث التي تنطوي على قرار الكيان. لقد قرأت القليل منها وسأقرأ المزيد. شارك باحثون في Google في تأليف بعض هذه الأوراق. إذا وجدت أي شيء يفاجئك ، فيرجى مشاركة ذلك في التعليقات. يعد فهم الكيانات في الاستعلامات منطقيًا إلى حد كبير ، حيث يمكن أن تضع هذه العملية هذه الاستعلامات في سياقها. إن التعرف على كيفية معالجة Google لاستعلام ما قد يعطي بعض الأفكار التي تتجاوز درجات استرجاع المعلومات ونتائج PageRank للصفحات. كيف تتكيف Google مع السياق ، من أجل وجود الكيانات في الاستعلام؟

على سبيل المثال ، قد يشير نيوكاسل إلى نيوكاسل أبون تاين ، المملكة المتحدة ، إلى نادي كرة القدم نيوكاسل يونايتد ، أو مشروب نيوكاسل براون ألي. قد يساعد السياق في إزالة الغموض عن نص الإحالة. على سبيل المثال ، إذا كان نص الإحالة يتضمن سياق "جون يلعب في نيوكاسل" ، فإن الإشارة هي على الأرجح نادي كرة القدم ، بينما تشير عبارة "ولد جون في نيوكاسل" على الأرجح إلى الموقع ، وما إلى ذلك.

نحن نعلم أن Google كانت تحاول فهم السياق بشكل أفضل في تطوير الكلمات الرئيسية ، كما كتبت في متجهات سياق براءات الاختراع من Google لتحسين البحث. يمكن لبراءة اختراع من Google حول فهم سياق الكيانات بشكل أفضل أن تضيف معنى للصفحات ، وما يعرفه محرك البحث عنها. ينصب تركيز براءة الاختراع الجديدة هذه على بناء النماذج التي يمكن أن تساعد في فهم الاستفسارات باستخدام حل الكيان:

تتنبأ النماذج باحتمالية حدوث بعض الأحداث عند الملاحظات. يمكن استخدام خوارزميات التعلم الآلي لتدريب معلمات النموذج. على سبيل المثال ، قد يخزن النموذج مجموعة من الميزات ودرجة الدعم لكل مجموعة من الكيانات المختلفة. تمثل درجة الدعم درجة الاحتمالية التي تعلمها النموذج ، وهو احتمال حدوث الميزة بالنظر إلى الكيان. اعتمدت النماذج المستخدمة في تحليل الكيان على ثلاثة مكونات: نموذج الإشارة ونموذج السياق ونموذج التماسك. يمثل النموذج المذكور الاعتقاد المسبق بأن عبارة معينة تشير إلى كيان معين في الرسم البياني للبيانات. يستدل نموذج السياق على الكيان الأكثر احتمالا للإشارة بالنظر إلى السياق النصي للإشارة. في نموذج السياق ، يمكن أن تمثل كل ميزة عبارة تمثل جزءًا من سياق ذكر الكيان. على سبيل المثال ، قد يكون لعبارة "الرئيس" درجة دعم (أو درجة احتمالية) لكيانات "باراك أوباما" و "بيل كلينتون" و "نيكولا ساركوزي" والعديد من الآخرين. وبالمثل ، قد يكون لعبارة "التشغيل من أجل" درجة دعم لمختلف الفرق والفرق وما إلى ذلك. قد يتم تمثيل السياق الذي تمت مناقشته أعلاه بمجموعة من الميزات أو العبارات التي تتزامن مع (على سبيل المثال ، تحدث حول) النص المرجعي ، أو ذكر الكيان. يحاول نموذج التناسق فرض جميع التعبيرات المرجعية في المستند لحل الكيانات المرتبطة ببعضها البعض في الرسم البياني للبيانات. لكن نموذج التماسك يقدم التبعيات بين قرارات جميع الإشارات في مستند ويتطلب أن تكون علاقات الكيانات ذات الصلة في الرسم البياني للبيانات متاحة في وقت الاستدلال ، مما يزيد من تكاليف الاستدلال والوصول إلى النموذج.

براءة حل الكيان هي:

نموذج السياق الإضافي لتحليل الكيان
المخترعون: أمارناج سوبرامانيا ومايكل رينغارد وفرناندو كارلوس داس نيفيس بيريرا
الوكيل: Google
براءات الاختراع الأمريكية: 9697475
تم المنح: 4 يوليو 2017
تاريخ التقديم: 23 ديسمبر 2013

الملخص:

تم الكشف عن الأنظمة والطرق لاستخدام نموذج سياق إضافي لتوضيح الكيان. قد تتضمن إحدى الطرق كمثال استلام مدى من النص من مستند ومتجه العبارة للمدى. قد يحتوي متجه العبارة على العديد من الميزات ويمثل سياقًا للمدى. تتضمن الطريقة أيضًا تحديد عدد الكيانات المرشحة من قاعدة المعرفة التي تمت الإشارة إليها بواسطة النطاق. لكل من عدد الكيانات المرشحة ، قد تتضمن الطريقة تحديد درجة دعم للكيان المرشح لكل ميزة في ناقل العبارة ، والجمع بين درجات الدعم بشكل إضافي ، وحساب احتمال أن النطاق يحل للكيان المرشح بالنظر إلى السياق . قد تتضمن الطريقة أيضًا حل النطاق لكيان مرشح ذي احتمالية أعلى.

مراجع مقدم الطلب

عندما رأيت جميع الأوراق المشار إليها في براءة الاختراع هذه ، أردت قراءتها جميعًا ومشاركة الروابط معهم. أحدث الأبحاث حول حل الكيانات. سأمر بهذه الأمور في الأسابيع القادمة. أنا أنظر إليها كفرصة للتعلم من بعض أفضل المصادر المتاحة. إذا برز أي شيء عن أي من هذه الأوراق ، أود أن أسمع أفكاركم عنها.

Chu ، وآخرون ، "Map-Reduce for Machine Learning on Multicore" ، في NIPS ، 2006 ، ص 281-288. استشهد من قبل مقدم الطلب.

فريدمان وآخرون ، "الانحدار اللوجستي الإضافي: وجهة نظر إحصائية للتعزيز" ، ورقة خاصة مدعوة ، حوليات الإحصاء ، المجلد. 28 ، ع 2 ، 2000 ، ص 337-407. استشهد من قبل مقدم الطلب.

"Ambiverse: AIDA: توضيح دقيق عبر الإنترنت للكيانات المحددة في النص والجداول" ، Max Planck Institut Informatik ، متاح عبر الإنترنت على http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/r - esearch / yago-naga / aida / ، 2013 ، 4 صفحات. استشهد من قبل مقدم الطلب.

Baluja et al. ، "اقتراح الفيديو واكتشافه لموقع YouTube: أخذ مسارات عشوائية من خلال عرض الرسم البياني" ، المؤتمر الدولي على شبكة الويب العالمية (WWW 2008) ، 21-25 أبريل ، 2008 ، 10 صفحات. استشهد من قبل مقدم الطلب.

Bollacker وآخرون ، "Freebase: قاعدة بيانات رسومية تم إنشاؤها بشكل تعاوني لهيكلة المعرفة البشرية" ، وقائع المؤتمر الدولي لـ ACM SIGMOD حول إدارة البيانات ، 9-12 يونيو ، 2008 ، ص 1247-1249. استشهد من قبل مقدم الطلب.

بونيسكو وآخرون ، "استخدام المعرفة الموسوعية لإزالة غموض الكيان المحدد" ، وقائع المؤتمر الحادي عشر للفصل الأوروبي لجمعية اللغويات الحاسوبية ، أبريل 2006 ، ص 9-16. استشهد من قبل مقدم الطلب.

Cucerzan ، Silviu ، "توضيح الكيان المُسمّى على نطاق واسع استنادًا إلى بيانات ويكيبيديا" ، وقائع المؤتمر المشترك حول الأساليب التجريبية في ze et al. ،

"توضيح الكيان لسكان قاعدة المعرفة" ، وقائع المؤتمر الدولي الثالث والعشرين حول اللغويات الحاسوبية ، أغسطس 2010 ، ص 277-285. استشهد من قبل مقدم الطلب.

Duchi et al.، "Efficient Online and Batch Learning using Forward-Backward Splitting"، Journal of Machine Learning Research، vol. 10 ، 2009 ، ص 2899 - 2934. استشهد من قبل مقدم الطلب.

Ferragina وآخرون ، "TAGME: تعليق توضيحي سريع لأجزاء نصية قصيرة (بواسطة كيانات ويكيبيديا)" ، وقائع المؤتمر الدولي التاسع عشر لـ ACM حول إدارة المعلومات والمعرفة ، 26-30 أكتوبر 2010 ، ص 1625- 1628. استشهد من قبل مقدم الطلب.

Finin et al. ، "استخدام Wikitology من أجل تحليل الكيان عبر الوثائق" ، جمعية النهوض بالذكاء الاصطناعي ، 2009 ، ص 29-35. استشهد من قبل مقدم الطلب.

Finkel et al. ، "دمج المعلومات غير المحلية في أنظمة استخراج المعلومات بواسطة Gibbs Sampling" ، وقائع الاجتماع السنوي الثالث والأربعين لـ ACL ، يونيو 2005 ، 363-370. استشهد من قبل مقدم الطلب.

Gabrilovich وآخرون ، "تسخير خبرة 70.000 محرر بشري: إنشاء ميزة قائمة على المعرفة لتصنيف النص" ، Journal of Machine Learning Research ، المجلد. 8 ، 2007 ، ص 2297-2345. استشهد من قبل مقدم الطلب.

Hachey et al.، "Evaluating Entity Linking with Wikipedia"، Artificial Intelligence، vol. 194 ، 2013 ، ص 130-150. استشهد من قبل مقدم الطلب.

Haghighi et al.، "Coreference Resolution Simple Coreference Resolution with Rich Syntactic and Semantic Features"، Proceedings of Conference on Empirical Methods in Natural Language Processing، August 6-7، 2009، pp.1152-1161. استشهد من قبل مقدم الطلب.

هان وآخرون ، "نموذج الكيان التوليدي لربط الكيانات بقاعدة المعرفة" ، وقائع الاجتماع السنوي التاسع والأربعين لجمعية اللغويات الحاسوبية: تقنيات اللغة البشرية - المجلد. 1 ، 19-24 يونيو 2011 ، ص 945-954. استشهد من قبل مقدم الطلب.

هان وآخرون ، "نموذج موضوع الكيان لربط الكيان" ، وقائع المؤتمر المشترك لعام 2012 حول الأساليب التجريبية في معالجة اللغة الطبيعية وتعلم اللغة الطبيعية الحسابية ، 12-14 يوليو ، 2012 ، ص 105-115. استشهد من قبل مقدم الطلب.

هان وآخرون ، "توضيح الكيان المحدد من خلال الاستفادة من المعرفة الدلالية في ويكيبيديا" ، وقائع المؤتمر الثامن عشر لـ ACM حول إدارة المعلومات والمعرفة ، 2-6 نوفمبر ، 2009 ، ص 215-224. استشهد من قبل مقدم الطلب.

هوفارت وآخرون ، "توضيح قوي للكيانات المسماة في النص" ، وقائع المؤتمر حول الأساليب التجريبية في معالجة اللغة الطبيعية ، يوليو 27-31 ، 2011 ، ص 782-792. استشهد من قبل مقدم الطلب.

Kulkarni وآخرون ، "التعليق التوضيحي الجماعي لكيانات ويكيبيديا في نص الويب" ، وقائع المؤتمر الدولي الخامس عشر لـ ACM حول اكتشاف المعرفة واستخراج البيانات ، 28 يونيو-يوليو. 1 ، 2009 ، ص 457-466. استشهد من قبل مقدم الطلب.

Kwiatkowski وآخرون ، "التعميم المعجمي في CCG التحريض النحوي للتحليل الدلالي" ، وقائع المؤتمر حول الأساليب التجريبية في معالجة اللغة الطبيعية ، 27-31 يوليو ، 2011 ، الصفحات 1512-1523. استشهد من قبل مقدم الطلب.

لين وآخرون ، "ربط الكيانات على مقياس الويب" ، بروك. من ورشة العمل المشتركة حول إنشاء قاعدة المعرفة التلقائية واستخراج المعرفة على نطاق الويب ، 7-8 حزيران (يونيو) 2012 ، ص 84-88. استشهد من قبل مقدم الطلب.

Mayfield et al.، "Cross-Document Coreference Resolution: A Key Technology for Learning by Reading"، Spring Symposium on Learning by Reading and Learning to Read، Mar. 2009، 6 pages. استشهد من قبل مقدم الطلب.

Mihalcea وآخرون ، "ويكي! ربط الوثائق بالمعرفة الموسوعية "، وقائع المؤتمر السادس عشر للـ ACM حول إدارة المعلومات والمعرفة ، 6-8 نوفمبر 2007 ، ص 233-241. استشهد من قبل مقدم الطلب.

Milne et al.، "Learning to Link with Wikipedia"، Proceedings of the 17th ACM Conference on Information and Knowledge Management، October 26-30، October، 2008، pp.509-518. استشهد من قبل مقدم الطلب.

Nigam et al. ، "تصنيف النص من المستندات المصنفة وغير المصنفة باستخدام EM" ، Machine Learning ، المجلد. 39 ، 2000 ، ص 103-134. استشهد من قبل مقدم الطلب.

Orr et al. ، "التعلم من البيانات الضخمة: 40 مليون كيان في السياق" ، متاح عبر الإنترنت <https://research.googleblog.com/2013/03/learning-from-big-data-40-mil- lion.html > ، 8 مارس 2013 ، 6 صفحات. استشهد من قبل مقدم الطلب.

راتينوف وآخرون ، "الخوارزميات المحلية والعالمية لإزالة الغموض عن ويكيبيديا" ، وقائع الاجتماع السنوي التاسع والأربعين لجمعية اللغويات الحاسوبية ، 19-24 يونيو 2011 ، ص 1375-1384. استشهد من قبل مقدم الطلب.

Sil et al. ، "ربط الكيانات المسماة بأي قاعدة بيانات" ، وقائع المؤتمر المشترك حول الأساليب التجريبية في معالجة اللغة الطبيعية وتعلم اللغة الطبيعية الحسابية ، يوليو 12-14 ، 2012 ، ص 116-127. استشهد من قبل مقدم الطلب.

Subramanya وآخرون ، "التعلم شبه الخاضع للإشراف مع قياس الانتشار" ، Journal of Machine Learning Research ، المجلد. 12 ، 2011 ، ص 3311-3370. استشهد من قبل مقدم الطلب.

Talukdar وآخرون ، "تجارب في طرق التعلم شبه الخاضعة للإشراف القائمة على الرسم البياني لاكتساب المثيلات" ، وقائع الاجتماع السنوي الثامن والأربعين لجمعية اللغويات الحاسوبية ، 11-16 يوليو ، 2010 ، ص 1473-1481. استشهد من قبل مقدم الطلب.

Talukdar وآخرون ، "خوارزميات منتظمة جديدة للتعلم التحويلي" ، وقائع المؤتمر الأوروبي للتعلم الآلي واكتشاف المعرفة في قواعد البيانات: الجزء الثاني ، 2009 ، ص 442-457. استشهد من قبل مقدم الطلب.

Talukdar وآخرون ، "الاستحواذ الخاضع للإشراف على مثيلات الفئة المصنفة باستخدام الرسم البياني للمشي العشوائي" ، وقائع المؤتمر حول الأساليب التجريبية في معالجة اللغة الطبيعية ، أكتوبر 2008 ، ص 582-590. استشهد من قبل مقدم الطلب.

تصف براءة الاختراع عملية لإزالة الغموض عن الكيانات ، ولكن بدا لي أن القدرة على الاطلاع على الموارد الموجودة في براءة الاختراع كانت ذات قيمة وأن الأمر يستحق التركيز على هذا الجانب من براءة الاختراع ، حيث تعلمت المزيد حول كيفية أدائهم قرار الكيان. سوف امرهم قد يبدو هذا كتمرين أكاديمي ، لكن حل الكيانات أصبح الآن جزءًا من كيفية تعامل Google مع الاستعلامات ويستحق معرفة شيء عنها. عندما ترى Google "New Castle" في طلب بحث ، يجب أن تعرف ما إذا كان تتم الإشارة إلى البيرة أو الفريق أو الموقع.

كيف يمكنك إظهار ذلك لمحرك البحث؟