الكافيين: مفهرس جوجل
نشرت: 2017-03-24
غالبًا ما تكون تحديثات محرك بحث Google أحداثًا غامضة ، لكن في بعض الأحيان أجد معلومات في براءات اختراع Google توفر بعض الأفكار حول كيفية عمل شيء ما. أحد تحديثات Google التي كانت تهدف إلى جعل Google أسرع بكثير مما كانت عليه كان تحديث Caffeine ، والذي تم الإعلان عنه رسميًا بواسطة Google في عام 2010 مع هذا المنشور: فهرس البحث الجديد: Caffeine.
إذا قمت بإجراء تغييرات على المحتوى على صفحة ويب ، فكم من الوقت تستغرق هذه التغييرات لجعلها في فهرس Google؟ إذا قمت بنشر صفحة جديدة أو منشور مدونة ، فمتى يصبح ذلك جزءًا من فهرس Google كشيء يمكن الاستعلام عنه؟ كان الأمر يستغرق بعض الوقت قبل أن يصبح المحتوى المضاف إلى الويب شيئًا قابلاً للبحث. ستقوم Google بتحديث فهرسها ، وستصبح الكثير من البيانات التي تمت إضافتها إلى الويب قابلة للاستعلام عنها في حركة أشار إليها العديد من الأشخاص باسم Google Dance. ثم خرج Google بنهج يعني حدوث تغييرات في نتائج البحث بشكل أسرع ، وأشار مات كاتس ، رئيس Google السابق لرسائل الويب غير المرغوب فيها ، إلى ذلك في هذا الفيديو حيث وصف "Flux" الذي كان يحدث في نتائج بحث Google:
دفعت Google التحديثات التي كانت تهدف إلى تسريع فهرسة المحتوى على الويب. تمت الإشارة إلى أحد هذه التحديثات باسم تحديث Big Daddy. آخر حدث في عام 2009 تمت الإشارة إليه على أنه تحديث Caffeine. يتوفر مظهر مختلف قليلاً في هذه المقالة الصحفية: Google Caffeine: ما هو حقًا
لقد صادفت مؤخرًا براءة اختراع تُظهر كيف يمكن لـ Google جعل فهرس البحث الخاص بهم أسرع بكثير وقررت مشاركته بعد رؤية تحديث Caffeine من Google الذي تم إلقاء اللوم عليه في العديد من التغييرات في كيفية فهرسة المحتوى على الويب على مر السنين - مشاركة براءة الاختراع هذه قد يمنح الأشخاص مزيدًا من المعرفة حول كيفية قيام Google بفهرسة الصفحات على الويب. تم إيداع ثلاث براءات اختراع ذات صلة في نفس اليوم. أنها توفر نظرة مثيرة للاهتمام حول كيفية عمل الكافيين. ما يفعلونه هو ببساطة:
تتعلق التجسيدات التي تم الكشف عنها عمومًا بأنظمة وطرق معالجة البيانات ، وعلى وجه الخصوص بمستودع المستندات الذي يدعم فترات الاستجابة المنخفضة من وقت تحديث المستند إلى وقت توفر المستند للاستعلامات ، وهذا يتطلب القليل من المزامنة بين سلاسل عمليات الاستعلام وخيوط تحديث المستودع .
لذلك ، إذا كنت قد تساءلت عن المدة التي تستغرقها من النقطة التي تنشر فيها شيئًا ما على الويب إلى وقت إضافته إلى فهرس Google ، فإن ذلك يعتمد على المزامنة الموضحة في براءات الاختراع هذه.
يبحث Google عما يشار إليه بالفهرس المقلوب ، والذي يحتوي على جميع الكلمات الموجودة في كل مستند يقوم بفهرسته على الويب ، بالإضافة إلى مؤشرات عن مواقع تلك الكلمات. تشير براءة الاختراع إلى ما تشير إليه "عقبات" في تقديم نتائج جديدة. وتشمل هذه:
(1) المصاريف أو النفقات العامة المرتبطة بإعادة بناء فهرس المستندات في كل مرة يتم فيها تحديث مستودع المستندات. على سبيل المثال ، غالبًا ما ترتبط النفقات العامة الكبيرة بإنشاء فهارس صغيرة من المستندات الجديدة والمحدثة ودمج الفهارس الصغيرة بشكل دوري مع الفهرس الرئيسي ، وعادة ما تعاني هذه الأنظمة من فترات انتقال طويلة بين تحديثات المستندات وتوافر تلك المستندات في فهرس المستودع.
(2) صعوبة المعالجة المستمرة للاستعلامات مقابل مستودع تخزين المستندات أثناء تحديث المستودع ، دون تكبد نفقات كبيرة. يتمثل أحد جوانب هذه العقبة الثانية في الحاجة إلى مزامنة كل من الخيوط التي تنفذ الاستعلامات والخيوط التي تقوم بتحديث مستودع المستندات بهياكل البيانات الرئيسية في مستودع البيانات. يمكن أن تشكل الحاجة إلى مزامنة سلاسل عمليات الاستعلام وسلاسل تحديث المستودع عقبة كبيرة أمام التشغيل الفعال لمستودع المستندات إذا تم إجراء تحديثات المستندات بشكل متكرر ، وهو بدوره عائق أمام الحفاظ على حداثة مستودع المستندات.
للوصول إلى براءة الاختراع وقراءة كل شيء ، إليك رابط لها:
نظام وطريقة فحص المستندات لتحديث المستندات في مستودع المستندات واستعادة مساحة التخزين من المستندات غير الصالحة
المخترعون: مايكل بوروز وجيفري أ. دين
الوكيل: Google Inc.
براءات الاختراع الأمريكية 7،617،226
تم الممنوحة: 10 تشرين الثاني (نوفمبر) 2009
تاريخ التقديم: 10 فبراير 2006
الملخص
يخزن مستودع tokenspace المستندات كسلسلة من الرموز المميزة. يستخدم مستودع tokenspace ، بالإضافة إلى الفهرس المقلوب لمستودع tokenspace ، بنية بيانات لها نهاية أولى ونهاية ثانية وتسمح بالإدخالات في النهاية الثانية والحذف من الواجهة الأمامية. يتم تحديث مستند في مستودع tokenspace عن طريق إدخال الإصدار المحدث في المستودع في النهاية الثانية وإبطال الإصدار السابق. لا يتم حذف المستندات غير الصالحة على الفور ؛ تم تحديدها في قائمة جمع القمامة لجمع القمامة في وقت لاحق. يتم تشغيل مستودع tokenspace لنقل المستندات غير الصالحة إلى الواجهة الأمامية ، وعند هذه النقطة يمكن حذفها واستعادة مساحة التخزين الخاصة بها.
المطحنة
عندما قرأت من خلال براءة الاختراع هذه ، كانت إحدى الكلمات التي لفتت انتباهي هي "treadmilling" ، والتي تم استخدامها لوصف كيفية التعامل مع البيانات في فهرس Google:
نظرًا لأنه لا يمكن إجراء الحذف إلا على البيانات الموجودة في الواجهة الأمامية ، فإن البيانات الموجودة في الخلايا تكون "مفرغة" بشكل دوري. بمعنى ، يتم نسخ البيانات الصالحة الموجودة في الواجهة الأمامية إلى النهاية الخلفية ويتم حذف البيانات الصالحة الأصلية الموجودة في الواجهة الأمامية. نظرًا لأنه يتم نقل البيانات الصالحة من الواجهة الأمامية إلى النهاية الخلفية ، يتم نقل البيانات الموجودة في الخلايا بين الواجهة الأمامية والنهاية الخلفية بشكل منطقي إلى الواجهة الأمامية ، حيث يمكن حذفها إذا لزم الأمر. وبالتالي ، فإن جهاز المشي يساعد في استعادة مساحة الذاكرة المشغولة ببيانات (تسمى أحيانًا البيانات القديمة) التي لم تعد صالحة. مزيد من المعلومات حول جهاز المشي موضحة أدناه ، فيما يتعلق بالشكل التين. 13-15.
توفر بقية براءة الاختراع مزيدًا من التفاصيل حول كيفية عمل نظام الفهرسة هذا ، وبعد قراءتها ، وجدت نفسي أتساءل عما إذا كان يتحدث عن الكافيين وما إذا كانت Google لا تزال تستخدم الكافيين. على مدار الأيام القليلة الماضية ، قام المتحدث باسم Google Gary Illyes بعمل بضع تغريدات مشفرة أشارت إلى مفهرس Google Caffeine بطرق يبدو أنها تشير إلى أنها لا تزال مهمة ولا تزال تستخدمها Google:


