سؤال وجواب مع Paul Haahr ، Ranking Engineer في Google ، SMX West 2016
نشرت: 2021-10-08تلقت صناعة تحسين محركات البحث مؤخرًا قدرًا نادرًا من الشفافية والبصيرة من أحد موظفي Google. على وجه التحديد عضو في قسم هندسة الترتيب الخاص بهم: شخص يساهم بشكل مباشر في خوارزمية Google.
قدم Paul Haahr ، وهو مهندس برمجيات في Google لمدة 14 عامًا ، عرضًا تقديميًا في SMX West في مارس حول كيفية عمل Google ، من وجهة نظره كمهندس تصنيف. بعض التغطية:
- فيديو كامل هنا.
- تغطيتي وأفكاري هنا.
- تغطية راي هوفمان هنا (لا تفوت التعليقات!).
- النص الكامل لريتشارد باكستر للعرض التقديمي.
سيغطي هذا المنشور الأسئلة والأجوبة التي قادها داني سوليفان مع بول بعد عرضه التقديمي ، والذي انضم إليه جاري إيلز ، محلل اتجاهات مشرفي المواقع في Google. فيديو كامل أدناه:
في الأسئلة والأجوبة ، تم طرح 16 سؤالًا. لنأخذهم واحدًا تلو الآخر.
ملاحظة: سأعيد صياغة الإجابات بناءً على فهمي الخاص. إذا كنت ترغب في مشاهدة الإجابة كاملة ، أقترح عليك مشاهدة الفيديو. يحتوي كل سؤال على مقطع فيديو مدمج إلى الحد الذي يطرح فيه داني السؤال.
1. الشظايا هي أجزاء من المؤشر العام في أماكن مختلفة؟
الفهرس هو مجموع كل القطع معًا.
تمتلك Google شبكة كبيرة من الأجهزة الكبيرة جدًا ، وهي تختار أحجام القطع لملء هذه الأجهزة الكبيرة جدًا. يبدو أن القطع هي طريقة Google للتعامل مع مشكلة الحجم ، مما يجعل حجم الفهرس قابلاً للإدارة.
2. كيف يتناسب RankBrain مع كل هذا؟
- يتم تزويد RankBrain بمجموعات فرعية معينة من الإشارات في الخوارزمية (من غير الواضح أي إشارات).
- RankBrain هو نظام للتعلم الآلي (التعلم العميق؟ Paul يصحح نفسه إلى التعلم العميق) الذي لديه أفكاره الخاصة حول كيفية الجمع بين الإشارات وفهم المستندات.
- يتفهم Google كيفية عمل RankBrain (بعد بذل الكثير من الجهد) ، لكنهم لا يفهمون ما يفعله بالضبط.
- يستخدم RankBrain الكثير مما نشرته Google حول التعلم العميق.
- طبقة واحدة مما تقوم به RankBrain هي Word2vec و Word Embeddings.
- يبدأ RankBrain بعد مرحلة ما بعد الاسترداد المتأخرة في حياة الاستعلام. (يشير بول إلى هذا على أنه "صندوق").
3. كيف يعرف RankBrain سلطة الصفحة؟ كيف تعرف الجودة؟
يحتوي RankBrain على بيانات تدريب قوية تهدف إلى تحسين هذه الوظيفة. يرى إشارات بالإضافة إلى الاستعلامات وصفحات الويب.
بالنسبة لي ، يبدو الأمر كما لو أن RankBrain لا تحتاج إلى تحديد سلطة أو جودة الصفحة. لقد غذت هذه المعلومات بالفعل.
4. ما أهداف التحويل التي تمتلكها Google عند اختبار تحسينات خوارزمية الترتيب؟ هل هناك أهداف متسقة يتم قياس جميع التحديثات على أساسها؟
اعتاد Google أن يكون لديه مقياس يسمى "Next Page Rate" والذي يقيس أساسًا عدد مرات نقر الأشخاص على الصفحة الثانية من النتائج. لم يكن مفهوم الصفحة الأولى نتائج رائعة. ومع ذلك ، يمكن التلاعب / التلاعب بهذا بسهولة.
المساحة البيضاء ، على وجه التحديد ، ستقلل من احتمالية نقر الأشخاص على الصفحة الثانية من البحث.
[قص المشهد في الفيديو]
ملاحظة: يتم طرح سؤال مشابه لاحقًا ، عند علامة 8:50. قم بالتمرير لأسفل إلى السؤال رقم 8 لمشاهدة الفيديو والرد.
5. من أول الأشياء التي تقوم بها تحديد ما إذا كان الاستعلام يحتوي على كيان. هل كان هذا شيئًا فعلته قبل خمس سنوات؟
بدأ ذلك في نفس الوقت الذي بدأ فيه الرسم البياني المعرفي ولوحات المعرفة. إنه مفتاح تلك العمليات.
لم يكن هذا شيئًا تفعله Google قبل إطلاق الرسم البياني المعرفي في عام 2011.
6. إذا قام شخص ما بتسجيل الدخول إلى أي تطبيق من تطبيقات Google ، فهل تميز بالمعلومات التي تجمعها؟ هل يمكن أن يؤثر التواجد في Google Now في مقابل Google Chrome على البحث؟
السؤال الحقيقي هو ما إذا كنت قد قمت بتسجيل الدخول أم لا.
إذا قمت بتسجيل الدخول ، فإن Google يجلب لك تخصيص البحث. تريد Google توفير تجربة بحث متسقة للمستخدمين ، بناءً على اهتماماتك ، بالإضافة إلى ما يتم عرضه في بطاقات Google Now.
طالما قمت بتسجيل الدخول ولم تقم بإيقاف تشغيل تخصيص البحث ، فسيكون لديك تخصيص في تجارب البحث الخاصة بك.
من المرجح أن يتابعك البحث عبر أجهزتك أكثر من الإشارات المرجعية.
7. هل يقدم Google نتائج مختلفة لنفس الاستعلام في أوقات مختلفة خلال اليوم؟ يبدو أن الخرائط المحلية تتغير مع ساعات العمل.
لم يكن بول ولا جاري متأكدين ، على الرغم من أن كلاهما بدا أنهما يعتقدان أن ساعات العمل لن تؤثر على الاستعلام.
ستحدد Google نقطة لإظهار ساعات الإغلاق (وساعات العمل) إذا تم إغلاق النشاط التجاري ، ولكن لا يبدو أن أي منهما يعتقد أن الساعات ستؤثر على ما إذا كانت الخريطة موجودة في نتائج البحث أم لا.
ببساطة لأن العمل التجاري مغلق (أو على وشك الإغلاق) لا يعني أن الباحث غير مهتم بموقعه الفعلي.
8. كيف تحدد Google التغييرات الإيجابية أو السلبية في التجارب مع المقيمين من البشر؟ هل يوجد تقرير رابحون / خاسرون بالاستفسارات؟
لدى Google تقرير موجز عن كل تجربة ، وكيفية أداء التجربة وفقًا لمجموعة من المقاييس المختلفة (التي تختلف اعتمادًا على التجربة) ، وكلها تتضمن كل استعلام ذي صلة.
هناك تصنيفات على المكاسب والخسائر. في المثال المذكور سابقًا - استعلام الأسمدة الذي عرض خريطة - تم تصنيفه على أنه فوز. يقوم البشر بمراجعة المقاييس والنتائج. ومع ذلك ، في هذه الحالة ، أشار بول إلى نفسه على أنه حقق النتائج السيئة التي تم الإبلاغ عنها على أنها فوز.

يشير بول إلى نقطة ليقول إن المقيمين من البشر عظيمون إلى حد كبير ، لكنهم يرتكبون أخطاء. على وجه التحديد ، يتحمس المقيمون البشريون بشأن ميزات معينة ، حتى إذا كانت الميزات لا تضيف قيمة.
9. ماذا يحدث مع Panda و Penguin؟
بول ليس لديه إجابة. لقد أوضح نقطة ليقول إن كلا من Panda و Penguin مدرجان في "مربع" التهديف والاسترجاع.
يعيد داني توجيه التركيز إلى Gary ، الذي اشتهر بقوله مرارًا وتكرارًا في الأشهر الستة الماضية أن Penguin على وشك الإطلاق. في الواقع ، قال غاري إن Penguin ستنطلق قبل العام الجديد (يناير 2016).
من الواضح أن تنبؤات جاري لم تتحقق بعد.
أفاد غاري أنه تخلى عن الإبلاغ عن الوقت الذي سيتم فيه إطلاق Penguin. إنه يعلم أن المهندسين يعملون على ذلك على وجه التحديد ، ولكن بعد أن أخطأ ثلاث مرات لا يرغب في ذكر تاريخ أو إطار زمني.
يذكر بول مرة أخرى دورة التكرار الطويلة لإطلاق إشارات وخوارزميات ترتيب جديدة.
10: لقد تحدثت عن إطلاق استغرق عامين. هل كان ذلك البطريق؟
لم يكن الإطلاق الذي ناقشه بول لمدة عامين هو Penguin.
كان الإطلاق عبارة عن إطلاق نصف تصنيف ونصف. كانت محاولتهم الأولى في التصحيح الإملائي والتي استحوذت على أكثر من نصف SERPs ، وظهرت نتائج لخطأ إملائي ، بدلاً من وظيفة "هل تقصد".
تطلب التكرار الأول الذي تم إطلاقه لهذه الميزة إعادة كتابة كبيرة (من المفترض أن تتلاءم مع الخوارزمية).
11: ذكرت خبرة مؤلف معين. كيف تحدد وتتبع سلطة المؤلف للموضوعات؟
لا يستطيع بول الخوض في أي تفاصيل هنا. ومع ذلك ، فإن المراجعين البشريين في التجارب مكلفون بالقيام بذلك يدويًا للصفحات التي يرونها . يقارن Google المقاييس الخاصة بهم مع ما يجده المقيمون البشريون ، وبالتالي التحقق من صحة (أو إبطال) المقاييس الخاصة بهم.
12: هل سلطة المؤلف مستخدمة كعامل ترتيب مباشر أو غير مباشر؟
لا توجد إجابة بسيطة: لا يستطيع بولس أن يقول نعم أو لا. الأمر أكثر تعقيدًا مما يوحي به السؤال.
13: هل يجب أن نستمر في الاهتمام بـ rel = author؟
يقول Gary أن هناك فريقًا واحدًا على الأقل يواصل النظر في استخدام علامة rel = author.
لا يوصي جاري بإنشاء علامة للصفحات الجديدة ، ولكنه أيضًا لا يوصي بسحب علامة rel = author من الصفحات القديمة. لا تؤذي العلامة أي شيء ، ويمكن استخدامها لشيء ما في المستقبل.
14: كيف تتجنب مقيّمي الجودة من التحيز المألوف بالعلامة التجارية؟
يُطلب من المقيِّمين البشريين ، قبل التجارب ، إجراء بحث ، لكن بول يعترف بأنهم غالبًا ما يكونون متحيزين.
يقول بول إن هناك مقاييس معمول بها تهدف إلى مواجهة هذا التحيز ، وأن هذه المقاييس على وجه التحديد ليست في إشارة الجودة.
ومن المثير للاهتمام ، يقول بول بشكل مرتجل: "لم أبدأ في استعراض جميع المقاييس التي ننظر إليها بالفعل".
المعنى الضمني ، إذن ، هو أن هناك العديد من المقاييس التي تتجاوز الأهمية والجودة التي يتم النظر إليها في التجارب.
يشير بول إلى أن هناك العديد من المواقع الصغيرة التي تحصل على تصنيف جودة ، "لأن المقيمين يقومون بعمل شامل. ويبدو أنهم يجيدون اكتشاف ذلك."
15: هل تعد نسبة النقر إلى الظهور (CTR) إشارة ترتيب؟
يؤكد بول أن نسبة النقر إلى الظهور تُستخدم في التجارب وكذلك في التخصيص.
ومع ذلك ، فإن المقياس يمثل تحديًا للاستخدام في أي ظرف من الظروف.
ينسجم جاري ليقول إنه حتى مع المجموعات الخاضعة للرقابة من الصعب تفسير المشاركة بشكل صحيح.
يوافق بول على أن العديد من التجارب التي تم إجراؤها تحتوي على مقاييس حية مضللة. المثال الذي يستشهد به هو المقتطفات ، بالإضافة إلى "معدل الصفحة التالية" المشار إليه في السؤال رقم 4.
يستشهد بول أيضًا بتجربة مباشرة طويلة الأمد تبادلت النتائج رقم 2 و 4 في نتائج البحث. تم اختياره بشكل عشوائي وفقط .02٪ من المستخدمين. النتيجة؟ نقر العديد من الأشخاص على النتيجة رقم 1. يشرح بولس هذا:
"إنهم يرون رقم 1 - لا يعرفون ما إذا كانوا يحبون ذلك أم لا - ينظرون إلى اثنين ، وهو حقًا أسوأ بكثير من المركز الثاني ، يستسلمون لأن النتيجة التي كان ينبغي أن تكون في المركز الرابع وكانت في الواقع في المرتبة الثانية كان سيئًا للغاية لدرجة أنهم نقروا على رقم 1 ".
- بول هاهر في SMX West 2016 ، يشرح تجربة مباشرة من Google تؤدي إلى مقاييس نقر غير تقليدية.
هناك تحيز مثير آخر يستشهد به بول وهو أن الموضع رقم 10 يحصل على "نقرات أكثر بكثير" من الموضعين رقم 8 و 9 معًا. لماذا ا؟ لأنها النتيجة الأخيرة قبل الصفحة التالية ، ولا أحد يريد النقر فوق الصفحة التالية.
ومع ذلك ، فإن الأداء رقم 10 أسوأ من الموضع رقم 7.
والهدف من كل هذا؟ تعد نسبة النقر إلى الظهور (CTR) إشارة صعبة للغاية للاستخدام ، وغالبًا ما تكون نتيجة لتحيزات غريبة وسلوك بشري غير متوقع .
16: ماذا تقرأ الآن؟
يقرأ بول "الكثير من الصحافة وعدد قليل جدًا من الكتب." كما أنه يستمع إلى الكثير من الكتب الصوتية أثناء تنقلاته بين سان فرانسيسكو وماونتن فيو.
كتب بولس:
- مدينة جارث ريسك هالبرج في النار
- و سينكلير لويس ' لا يمكن أن يحدث هنا .
...و هذا ملف!
أسئلة؟ تعليقات؟ أفكار؟ اتركهم أدناه!
