هل حدث تحديث جرذ الأرض في Google؟

نشرت: 2017-02-08

تحديث جرذ الأرض

أبلغتنا قصة تم تشغيلها في Search Engine Land منذ بضعة أيام عن خوارزمية جديدة محتملة في Google: قد يكون تحديث خوارزمية Google غير المؤكدة أفضل في خصم الروابط والبريد العشوائي. قبل أن أقرأ هذا المنشور ، كنت قد قرأت للتو براءة اختراع جديدة من Google ، وذكرني المنشور ببراءة الاختراع. تم منح براءة الاختراع في 31 يناير 2017 ، ومن الممكن أن يكون ما تم وصفه في براءة الاختراع هو ما كان الناس يواجهونه في التحديث الذي تم الإبلاغ عنه في Search Engine Land.

تستند الخوارزمية الكامنة وراء براءة الاختراع إلى التصنيفات التي تتضمن عدد الموارد التي قد ترتبط بمورد قد يتم تصنيفه (مثل براءة اختراع تصنيف الصفحات في جامعة ستانفورد). تاريخيًا ، في Google ، قد تحصل الصفحة التي تحتوي على عدد كبير من الموارد التي ترتبط بها على ترتيب أعلى من الصفحات الأخرى التي تحتوي على قدر أقل من الموارد التي ترتبط بها. ولكن ماذا لو قررت Google إلقاء نظرة فاحصة على تلك الموارد وتخفيض بعض من وزن الترتيب الذي مروا به؟ لقد رأينا مؤشرات على أن Google قد تفعل شيئًا من هذا القبيل في Reasonable Surfer Patent الذي يحتوي على روابط تمر عبر كميات مختلفة من PageRank. هناك طريقة أخرى لتغيير المقدار الذي يمكن أن يتم تمريره في نظام ترتيب الصفحات جنبًا إلى جنب مع الارتباط الذي قد يعتمد على مقدار حركة المرور التي قد يتلقاها المورد من الروابط ، والأوقات المكوّنة لحركة المرور من هذه الروابط ، سواء كانت نقرات قصيرة ، أو نقرات متوسطة ، أو نقرات طويلة.

قد يأخذ نهج الربط هذا أيضًا في الاعتبار جوانب أخرى من الروابط ، مثل نص الرابط لرابط يشير إلى مصدر مصدر ، والذي سيعتبره n-gram وسيحدد درجة مصدر لنص الرابط هذا المستخدم للارتباط بصفحة .

كان هذا بيانًا مثيرًا للاهتمام مررت عبره في المرة الأولى التي قرأت فيها براءة الاختراع الممنوحة حديثًا:

يمكن تعديل ترتيب نتائج البحث بناءً على ميل استعلام البحث لعرض نتائج البحث المتعلقة بالرسائل غير المرغوب فيها. يمكن تقليل ترجيح عدد ارتباطات الموارد في عملية التصنيف لاستعلامات البحث التي تميل بشكل كبير إلى إبراز نتائج البحث المتعلقة بالرسائل غير المرغوب فيها لتقليل الانحراف في تصنيفات الموارد التي تسببها بعض الموارد التي تحتوي على عدد كبير من الروابط بشكل غير متناسب مقارنة بعدد مختارات من الروابط.

تخبرنا براءة الاختراع أن لها عددًا من المزايا في استخدامها والتي يمكن أن تجعلها تستحق الاستخدام ، بما في ذلك خصم بعض الروابط في تصنيفات الصفحات التي يتم ربطها.

مزايا هذه العملية الحاصلة على براءة اختراع

1) يمكن تصنيف نتائج البحث عن الموارد بشكل أكثر دقة باستخدام البيانات المتعلقة بروابط الموارد والاختيارات لتلك الروابط.
2) يمكن تحديد الدرجة الأولية لمورد بناءً على عدد الروابط المؤدية إلى المورد الموجود في الموارد الأخرى وعدد من التحديدات لهذه الروابط.
3) يمكن تحديد موارد المصدر التي تتضمن ارتباطات إلى الموارد التي تحتوي على عدد غير متناسب من الروابط بالنسبة إلى عدد التحديدات ، كما هو موضح في الدرجات الأولية لتلك الموارد.
4) يمكن خصم الروابط من موارد المصدر المحددة هذه في عملية التصنيف التي تصنف الموارد بناءً على عدد الروابط المؤدية إلى المورد.
5) يمكن تسجيل الموارد التي تكون البيانات المتعلقة بالروابط غير متوفرة أو غير كافية باستخدام البيانات المتعلقة بالموارد التي تتضمن ارتباطًا بالمصدر.

يمكن العثور على براءة الاختراع التي أكتب عنها هنا ، وهي تستحق قضاء بعض الوقت مع:

تحديد مقياس الجودة لمورد
المخترعون: هيونغ جين كيم ، بول هاهر ، كين نج ، تشونغ تين كووك ، مصطفى أ.حماد ، وسشروت كارانجكار
الوكيل: Google
براءات الاختراع الأمريكية: 9558233
تم المنح: 31 يناير 2017
تم تقديمه: 31 ديسمبر 2012

الملخص:

الأساليب والأنظمة والأجهزة ، بما في ذلك برامج الكمبيوتر المشفرة على وسيط تخزين الكمبيوتر ، لتحديد مقياس جودة أحد الموارد. في أحد الجوانب ، تتضمن الطريقة تحديد درجة أولية لكل مورد أساسي في مجموعة. يمكن أن تستند النتيجة الأولية لمورد أولي على عدد من الموارد التي تتضمن ارتباطًا بالمورد الأساسي وعددًا من تحديدات الروابط. يتم تحديد مجموعة من مصادر المصادر. يتم تحديد درجة المصدر لكل مصدر مصدر. تعتمد درجة المصدر لمورد المصدر على درجة البذور لكل مورد أساسي مرتبط به المصدر المصدر. تحديد الموارد المرجعية المصدر. يتم تحديد درجة الموارد لكل مورد مرجعي. يمكن أن تستند درجة المورد لمورد مشار إليه بالمصدر على درجة المصدر لكل مورد مصدر يتضمن ارتباطًا بالمورد المشار إليه بالمصدر.

يعتمد التخفيض على عدد كبير من الروابط التي لا تنتج الكثير من الزيارات

كان هذا مقطعًا آخر من براءة الاختراع قد صدمني لأنه أشار إلى النتائج الضارة المحتملة للروابط التي لا تتوافق مع التوقعات التي قد يتم الاحتفاظ بها بالنسبة لهم:

يمكن للنظام تحديد مقياس الجودة لمورد ويب معين بناءً على عدد الموارد الأخرى التي ترتبط بمورد الويب المحدد ومقدار حركة المرور التي يتلقاها المورد. على سبيل المثال ، قد تقوم عملية التصنيف بترتيب صفحة ويب أولى بها عدد كبير من صفحات الويب الأخرى التي ترتبط بصفحة الويب الأولى أعلى من صفحة الويب التي تحتوي على عدد أقل من صفحات الويب المرتبطة. ومع ذلك ، قد يتم ربط بعض الموارد من خلال عدد كبير من الموارد الأخرى ، مع تلقي حركة مرور قليلة من الروابط. على سبيل المثال ، قد يحاول أحد الكيانات التلاعب بعملية التصنيف من خلال تضمين ارتباط إلى المورد في صفحة ويب أخرى. يمكن أن يؤدي هذا العدد الكبير من الروابط إلى تشويه ترتيب الموارد. لمنع مثل هذا الانحراف ، يمكن للنظام تقييم "عدم التطابق" بين عدد موارد الربط وحركة المرور المتولدة إلى المورد من موارد الربط. إذا كان أحد الموارد مرتبطًا بعدد من الموارد غير المتناسب فيما يتعلق بالمرور المتلقاة عن طريق استخدام هذه الروابط ، فقد يتم تخفيض هذا المورد في عملية التصنيف.

كيف يمكن تحديد حركة المرور بسبب ارتباط؟

يمكن إجراء تقييم الموارد من خلال عملية "سحب الدفع". في مثال على عملية السحب ، يتم تحديد درجة أولية لكل مجموعة من الموارد الأولية التي يتوفر لها ارتباط وبيانات حركة مرور كافية. تعتمد النتيجة الأولية لمورد أولي معين على عدد موارد المصدر التي ترتبط بالمورد الأساسي ومقدار حركة المرور المتولدة إلى المورد من موارد المصدر. في بعض عمليات التنفيذ ، تكون الدرجة الأولية لمورد معين هي النسبة بين عدد تحديدات الارتباطات إلى مورد معين وعدد موارد المصدر التي ترتبط بالمورد المعين.

يتم "سحب" درجات البذور هذه إلى موارد المصدر واستخدامها لتحديد درجة المصدر لكل مصدر مصدر. في بعض عمليات التنفيذ ، تعتمد درجة المصدر لمورد المصدر على الدرجة الأولية لكل مورد أساسي يرتبط به مصدر المصدر. يمكن استخدام نقاط المصدر هذه لتصنيف كل مصدر مصدر على أنه "مصدر مؤهل" أو "مصدر غير مؤهل".

قد يتم بعد ذلك خصم الروابط من المصادر التي قد يتم تحديدها على أنها غير مؤهلة.

الموارد ذات الصلة بالبريد العشوائي

تميل بعض طلبات البحث إلى إنتاج المزيد من الرسائل غير المرغوب فيها عن غيرها. تشير البراءة إلى مجموعة واحدة على وجه الخصوص:

على سبيل المثال ، يحاول ناشرو العديد من مواقع الويب الخاصة بمشاركة الفيديو التلاعب بالترتيب عن طريق إنشاء روابط إلى المواقع ، مما يؤدي إلى عدد كبير غير متناسب من الروابط مقارنة بعدد التحديدات ، بينما لا تحاول مواقع الويب الإخبارية الوطنية عادةً مثل هذا التلاعب.

بالنسبة لطلبات البحث التي غالبًا ما تنتج كميات أكبر من البريد العشوائي ، يمكن إعطاء نقرات التحديد قيمة أكبر في حساب الروابط هذا مقارنةً بالزيارات المرسلة بواسطة تلك الروابط:

بالنسبة إلى الاستعلامات ذات الميل العالي لتصفح صفحات الويب المتعلقة بالرسائل غير المرغوب فيها ، يمكن للنظام أن يضع وزنًا أكبر على أعداد التحديد لنتائج البحث ووزن أقل على عدد ارتباطات الموارد لنتائج البحث عند تصنيف نتائج البحث. وبالتالي ، يمكن القول أن النظام "يثق" في حساب النقرة أكثر من حساب ارتباط الموارد لاستعلامات البحث التي لديها ميل لتصفح صفحات الويب المتعلقة بالرسائل غير المرغوب فيها.

قد تستند نقاط جودة التحديد إلى وقت السكون

يتضمن جزء من العملية المتضمنة في حساب درجة جودة الموارد تحديد درجة البذور لمورد البذور. يمكن أن يبدأ هذا بتحديد عدد موارد الارتباط لمورد البذور. يمكن القيام بذلك من خلال النظر في عدد الموارد التي تتضمن ارتباطًا بمورد البذور.

يتضمن الجانب التالي من ذلك تحديد عدد اختيار لمورد البذور. قد يعتمد عدد التحديد هذا للمورد الأساسي على عدد المرات التي تم فيها تحديد الارتباط (الروابط) إلى المورد الأساسي المتضمن في الموارد الأخرى.

يتم تحديد درجة جودة التحديد لجزء على الأقل من تحديدات الارتباطات إلى المورد الأساسي. تعتبر نقاط جودة التحديد الخاصة بالتحديد مقياسًا لجودة التحديد ويمكن استخدامها لخصم اختيارات الجودة المنخفضة عند تحديد درجة البذور للمورد الأساسي.

هذا يعيد ذكريات كتاب ستيفن ليفي ، المسمى In the Plex ، والذي ذكر فيه أن أحد المقاييس التي غالبًا ما يتم التعامل معها بنظرة إيجابية من قبل الأشخاص في Google هو مقياس يشار إليه باسم "The Long Click".

تخبرنا براءة الاختراع:

قد تكون درجة جودة الاختيار أعلى بالنسبة للاختيار الذي ينتج عنه وقت طويل (على سبيل المثال ، أكبر من فترة زمنية حدية) من درجة جودة الاختيار لاختيار الذي ينتج عنه وقت إقامة قصير (على سبيل المثال ، أقل من فترة زمنية محددة) فترة). نظرًا لأن تحديدات الارتباط التي يتم إنشاؤها تلقائيًا غالبًا ما تكون قصيرة المدة ، فإن النظر في الوقت المستغرق في تحديد النتيجة الأولية يمكن أن يفسر تحديدات الارتباط الخاطئة هذه.

تخبرنا براءة الاختراع أيضًا أن بعض سلوك الاختيار التاريخي قد يشير إلى أن التحديدات تم إجراؤها بواسطة مستخدمين حقيقيين بدلاً من بعض العمليات الآلية.

قد يتم تخفيض ترتيب الموارد ذات الدرجات المنخفضة نسبيًا في التصنيف ، وقد يتم تعزيز الموارد ذات الدرجات العالية من الموارد في التصنيف.

Take-Aways

تقدم براءة الاختراع تفاصيل أكثر بكثير مما لدي في هذا المنشور ، ويوصى بشدة بقراءتها. إنها المرة الأولى التي يمكنني تذكرها والتي حاولت إعداد نوع من نقاط الجودة للروابط التي تشير إلى صفحات على الويب ، وتحديد مقدار الأهمية التي يجب أن تمر بها. كانت براءة الاختراع المعقولة لمتصفح الإنترنت مختلفة من حيث أنها حددت مقدار الوزن الذي قد يمرره الرابط بناءً على احتمال أن يكون مهمًا بناءً على الميزات المتضمنة في كيفية (ومكان) تقديمه على الصفحة.

لقد ذكرت على Twitter أنني سأكتب عن منشور Search Engine Land الذي ذكرته في بداية هذا المنشور ، وأن لدي تخمينًا بشأن ما قد تم تنفيذه والذي من شأنه أن يؤدي إلى تغيير الخوارزمية في Google إلى أن عددًا من لاحظ الناس. كان لدي اقتراح من جوناثان هوشمان أفكر في الإشارة إليه على أنه تحديث جرذ الأرض ، مع الأخذ في الاعتبار التوقيت ، ويبدو أنه ساري المفعول في بداية فبراير. تم منح براءة الاختراع هذه في اليوم الأخير من شهر يناير ، وعلى الرغم من أنه كان من الممكن تنفيذها قبل ذلك ، فمن الممكن أيضًا أن يتم وضعها موضع التنفيذ في بداية شهر فبراير.

هل كان ما حدث من خلال الخوارزميات في Google هو ترجيح ربط الموارد بناءً على حركة المرور المرتبطة بها ، أو ما إذا كانت مرتبطة بنتائج غير مرغوب فيها أم لا؟