ถาม & ตอบกับ Paul Haahr, Ranking Engineer ที่ Google, SMX West 2016
เผยแพร่แล้ว: 2021-10-08เมื่อเร็วๆ นี้ อุตสาหกรรม SEO ได้รับความโปร่งใสและข้อมูลเชิงลึกที่ไม่ค่อยพบจากพนักงาน Google โดยเฉพาะสมาชิกของแผนกวิศวกรรมการจัดอันดับ: บุคคลที่มีส่วนสนับสนุนอัลกอริทึมของ Google โดยตรง
Paul Haahr วิศวกรซอฟต์แวร์ของ Google ในช่วง 14 ปีที่ผ่านมาได้นำเสนอผลงานที่ SMX West ในเดือนมีนาคมเกี่ยวกับวิธีการทำงานของ Google จากมุมมองของเขาในฐานะวิศวกรจัดอันดับ ความคุ้มครองบางส่วน:
- วิดีโอแบบเต็มที่นี่
- ความคุ้มครองและความคิดของฉันที่นี่
- รายงานของ Rae Hoffman ที่นี่ (อย่าพลาดความคิดเห็น!)
- บันทึกการนำเสนอทั้งหมดของ Richard Baxter
โพสต์นี้จะครอบคลุมคำถามและคำตอบที่แดนนี่ ซัลลิแวนนำร่วมกับพอล หลังจากการนำเสนอของเขา ซึ่ง Gary Iylles นักวิเคราะห์แนวโน้มของผู้ดูแลเว็บของ Google เข้าร่วมด้วย วิดีโอแบบเต็มด้านล่าง:
ใน Q&A มีการถามคำถาม 16 ข้อ ลองมาดูทีละครั้ง
หมายเหตุ: ฉันจะถอดความคำตอบตามความเข้าใจของฉันเอง หากคุณต้องการดูคำตอบแบบเต็มฉันแนะนำให้คุณดูวิดีโอ คำถามแต่ละข้อมีวิดีโอที่ฝังอยู่ในจุดที่แดนนี่ถามคำถาม
1. Shards เป็นส่วนหนึ่งของดัชนีโดยรวมในตำแหน่งต่างๆ หรือไม่?
ดัชนีคือผลรวมของชาร์ดทั้งหมดรวมกัน
Google มีเครือข่ายขนาดใหญ่ของเครื่องจักรขนาดใหญ่ และพวกเขาเลือกขนาดชาร์ดเพื่อเติมเครื่องจักรขนาดใหญ่มากเหล่านี้ ดูเหมือนว่าชาร์ดเป็นวิธีที่ Google จัดการกับปัญหาเรื่องขนาด ทำให้ขนาดของดัชนีสามารถจัดการได้
2. RankBrain เหมาะสมกับสิ่งนี้อย่างไร?
- RankBrain มีชุดย่อยของสัญญาณในอัลกอริธึม (ไม่ชัดเจนว่าสัญญาณใด)
- RankBrain เป็นระบบการเรียนรู้ด้วยเครื่อง (การเรียนรู้เชิงลึกหรือ Paul แก้ไขตัวเองให้เป็นการเรียนรู้เชิงลึก) ที่มีแนวคิดของตนเองเกี่ยวกับวิธีการรวมสัญญาณและทำความเข้าใจเอกสาร
- Google เข้าใจว่า RankBrain ทำงานอย่างไร (หลังจากพยายามอย่างหนัก) แต่พวกเขาไม่เข้าใจจริงๆ ว่ากำลังทำอะไรอยู่
- RankBrain ใช้สิ่งที่ Google เผยแพร่เกี่ยวกับการเรียนรู้เชิงลึกเป็นส่วนใหญ่
- เลเยอร์หนึ่งของสิ่งที่ RankBrain กำลังทำคือ word2vec และการฝังคำ
- RankBrain เริ่มต้นหลังจากช่วงหลังการดึงข้อมูลในช่วงอายุของการสืบค้น (พอลเรียกสิ่งนี้ว่า "กล่อง")
3. RankBrain รู้อำนาจของเพจได้อย่างไร? มันรู้คุณภาพได้อย่างไร?
RankBrain มีข้อมูลการฝึกที่แข็งแกร่ง ซึ่งหมายถึงการปรับปรุงฟังก์ชันนี้ เห็นสัญญาณเพิ่มเติมจากข้อความค้นหาและหน้าเว็บ
สำหรับฉัน ดูเหมือนว่า RankBrain ไม่จำเป็นต้องกำหนดอำนาจหรือคุณภาพของหน้า มันป้อนข้อมูลนั้นไปแล้ว
4. Google มีเป้าหมายการแปลงอะไรบ้างเมื่อทำการทดสอบการปรับแต่งอัลกอริทึมการจัดอันดับ มีเป้าหมายที่สอดคล้องกันที่อัปเดตทั้งหมดหรือไม่
Google เคยมีตัวชี้วัดที่เรียกว่า "อัตราหน้าถัดไป" ซึ่งโดยทั่วไปจะวัดว่าผู้คนคลิกเข้าสู่หน้าที่สองของผลลัพธ์บ่อยเพียงใด แนวคิดในการเป็นหน้าแรกไม่ใช่ผลลัพธ์ที่ยอดเยี่ยม อย่างไรก็ตาม สิ่งนี้สามารถเล่นเกม/จัดการได้ง่าย
โดยเฉพาะพื้นที่สีขาวจะลดโอกาสที่ผู้คนจะคลิกไปยังหน้าที่สองของการค้นหา
[ฉากตัดในวิดีโอ]
หมายเหตุ: คำถามที่คล้ายกันจะถูกถามในภายหลังที่เวลา 08:50 น. เลื่อนลงไปที่คำถาม #8 เพื่อดูวิดีโอและคำตอบ
5. สิ่งแรกที่คุณทำคือกำหนดว่าคิวรีมีเอนทิตีหรือไม่ นั่นคือสิ่งที่คุณทำเมื่อห้าปีที่แล้วหรือไม่?
ซึ่งเริ่มต้นในเวลาเดียวกับกราฟความรู้และแผงความรู้ เป็นกุญแจสำคัญในกระบวนการเหล่านั้น
ไม่ใช่สิ่งที่ Google ทำก่อนเปิดตัวกราฟความรู้ในปี 2011
6. ถ้ามีคนจะเข้าสู่ระบบใด ๆ แอป Google คุณจะแตกต่างจากข้อมูลที่คุณรวบรวม? การอยู่ใน Google Now กับ Google Chrome ส่งผลต่อการค้นหาหรือไม่
คำถามที่แท้จริงคือถ้าคุณเข้าสู่ระบบหรือไม่
หากคุณเข้าสู่ระบบ Google จะทำให้การค้นหาเป็นแบบส่วนตัว Google ต้องการมอบประสบการณ์การค้นหาที่สอดคล้องกันสำหรับผู้ใช้ ตามความสนใจของคุณ รวมถึงสิ่งที่แสดงในการ์ด Google Now
ตราบใดที่คุณเข้าสู่ระบบและไม่ได้ปิดการปรับเปลี่ยนการค้นหาในแบบของคุณ คุณก็จะได้รับประสบการณ์การค้นหาในแบบของคุณ
คุณมีแนวโน้มที่จะให้การค้นหาติดตามคุณผ่านอุปกรณ์ต่างๆ มากกว่าบุ๊กมาร์ก
7. Google ให้ผลลัพธ์ที่แตกต่างกันสำหรับข้อความค้นหาเดียวกันในเวลาที่ต่างกันระหว่างวันหรือไม่ แผนที่ท้องถิ่นดูเหมือนจะเปลี่ยนไปตามเวลาทำการ
ทั้ง Paul และ Gary ต่างก็ไม่แน่ใจ แม้ว่าทั้งคู่จะคิดว่าเวลาทำการจะไม่ส่งผลต่อการสืบค้น
Google จะชี้ให้เห็นเวลาปิดทำการ (และเวลาทำการ) หากธุรกิจปิดทำการ แต่ดูเหมือนไม่มีใครคิดว่าเวลาทำการจะส่งผลต่อการแสดงแผนที่ในผลการค้นหาหรือไม่
การที่ธุรกิจปิดตัวลง (หรือใกล้จะปิด) ไม่ได้หมายความว่าผู้ค้นหาไม่สนใจสถานที่ตั้งทางกายภาพของตน
8. Google กำหนดการเปลี่ยนแปลงเชิงบวกหรือเชิงลบในการทดลองกับผู้ประเมินที่เป็นมนุษย์อย่างไร มีรายงานผู้ชนะ/ผู้แพ้จากการสอบถามหรือไม่?
Google มีรายงานสรุปเกี่ยวกับการทดสอบแต่ละครั้ง วิธีดำเนินการทดสอบตามเมตริกต่างๆ (ซึ่งแตกต่างกันไปตามการทดสอบ) ซึ่งทั้งหมดรวมทุกคำถามที่เกี่ยวข้อง
มีการจำแนกประเภทการชนะและการแพ้ ในตัวอย่างที่กล่าวถึงก่อนหน้านี้—แบบสอบถามปุ๋ยซึ่งแสดงแผนที่—ถูกจัดประเภทเป็นชัยชนะ มนุษย์ตรวจสอบตัวชี้วัดและผลลัพธ์ อย่างไรก็ตาม ในกรณีนี้ พอลเรียกตัวเองว่ากำลังจับผลการแข่งขันที่แย่ซึ่งถูกรายงานว่าเป็นฝ่ายชนะ

พอลชี้ว่าผู้ประเมินที่เป็นมนุษย์นั้นเก่งมาก แต่ทำผิดพลาดได้ โดยเฉพาะอย่างยิ่ง ผู้ประเมินที่เป็นมนุษย์จะรู้สึกตื่นเต้นกับคุณลักษณะบางอย่าง แม้ว่าคุณลักษณะจะไม่เพิ่มมูลค่าก็ตาม
9. เกิดอะไรขึ้นกับแพนด้าและเพนกวิน?
พอลไม่มีคำตอบ เขาชี้ให้เห็นว่าทั้งแพนด้าและเพนกวินต่างก็มีส่วนสำคัญในการให้คะแนนและเรียกค้น "กล่อง"
แดนนี่เปลี่ยนจุดสนใจไปที่แกรี่ ผู้ซึ่งขึ้นชื่อเรื่องการพูดซ้ำๆ ในช่วง 6 เดือนที่ผ่านมาว่าเพนกวินใกล้จะเปิดตัว ในความเป็นจริง Gary กล่าวว่า Penguin จะเปิดตัวก่อนปีใหม่ (มกราคม 2016)
เห็นได้ชัดว่าการคาดการณ์ของ Gary ยังไม่ปรากฎ
แกรี่รายงานว่าเขายอมแพ้ในการรายงานเวลาที่เพนกวินจะเปิดตัว เขารู้ว่าวิศวกรกำลังดำเนินการอยู่โดยเฉพาะ แต่หลังจากทำผิดถึงสามครั้ง เขาก็ไม่เต็มใจที่จะระบุวันที่หรือระยะเวลา
Paul กล่าวถึงวงจรการวนซ้ำที่ยาวนานของการเปิดตัวสัญญาณการจัดอันดับและอัลกอริทึมใหม่
10: คุณพูดถึงการเปิดตัวที่ใช้เวลาสองปี นั่นคือนกเพนกวิน?
การเปิดตัวสองปีที่ Paul กล่าวถึงไม่ใช่ Penguin
การเปิดตัวเป็นการเปิดตัวแบบครึ่งอันดับครึ่ง นี่เป็นความพยายามครั้งแรกของพวกเขาในการแก้ไขการสะกดคำ ซึ่งใช้ SERP มากกว่าครึ่งหนึ่ง โดยแสดงผลลัพธ์สำหรับการสะกดผิด แทนที่จะเป็นฟังก์ชัน "คุณหมายถึง"
การเปิดตัวซ้ำครั้งแรกของคุณสมบัตินั้นจำเป็นต้องมีการเขียนใหม่จำนวนมาก (น่าจะพอดีกับอัลกอริทึม)
11: คุณพูดถึงความเชี่ยวชาญของผู้เขียนที่กำหนด คุณระบุและติดตามผู้มีอำนาจในหัวข้ออย่างไร
พอลไม่สามารถลงรายละเอียดใด ๆ ที่นี่ อย่างไรก็ตาม ผู้ประเมินที่เป็นมนุษย์ในการทดลอง ได้รับมอบหมายให้ดำเนินการด้วยตนเองสำหรับหน้าเว็บที่พวกเขาเห็น Google เปรียบเทียบตัวชี้วัดของตนเองกับสิ่งที่ผู้ประเมินที่เป็นมนุษย์พบ ดังนั้นจึงตรวจสอบ (หรือทำให้เป็นโมฆะ) ตัวชี้วัดของพวกเขาเอง
12: อำนาจของผู้เขียนใช้เป็นปัจจัยในการจัดอันดับโดยตรงหรือโดยอ้อมหรือไม่?
ไม่มีคำตอบง่ายๆ: พอลไม่สามารถตอบว่าใช่หรือไม่ใช่ มันซับซ้อนกว่าที่คำถามบอกเป็นนัย
13: เราควรจะไปยุ่งเกี่ยวกับ rel=author ต่อหรือไม่?
Gary กล่าวว่ามีทีมอย่างน้อยหนึ่งทีมที่ยังคงดูการใช้แท็ก rel=author
แกรี่ไม่แนะนำให้สร้างแท็กสำหรับหน้าใหม่ แต่ก็ไม่แนะนำให้ดึงแท็ก rel=author จากหน้าเก่าด้วย แท็กนี้ไม่กระทบต่อสิ่งใด และอาจใช้สำหรับบางสิ่งในอนาคต
14: คุณจะหลีกเลี่ยงไม่ให้ผู้ประเมินคุณภาพมีอคติที่คุ้นเคยในแบรนด์ได้อย่างไร
ผู้ประเมินที่เป็นมนุษย์ก่อนการทดลองจะถูกขอให้ทำวิจัย แต่พอลยอมรับว่าพวกเขามักมีอคติ
Paul กล่าวว่ามีตัวชี้วัดที่มีอยู่ซึ่งมีวัตถุประสงค์เพื่อต่อต้านอคตินั้น และตัวชี้วัดเหล่านั้นไม่ได้อยู่ในสัญญาณคุณภาพโดยเฉพาะ
ที่น่าสนใจคือ พอลพูดอย่างไม่อ้อมค้อม: "ฉันยังไม่ได้เริ่มพิจารณาเมตริกทั้งหมดที่เราพิจารณาจริงๆ"
ความหมายก็คือ มีหลายตัวชี้วัดที่นอกเหนือจากความเกี่ยวข้องและคุณภาพที่พิจารณาจากการทดสอบ
Paul ชี้ให้เห็นว่ามีไซต์ขนาดเล็กจำนวนมากที่ได้รับคะแนนคุณภาพ "เนื่องจากผู้ประเมินทำงานอย่างละเอียดถี่ถ้วน ดูเหมือนว่าพวกเขาจะเก่งในการค้นหาสิ่งนี้"
15: อัตราการคลิกผ่าน (CTR) เป็นสัญญาณการจัดอันดับหรือไม่
Paul ยืนยันว่ามีการใช้ CTR ในการทดลองและการปรับเปลี่ยนในแบบของคุณ
เมตริกนี้เป็นสิ่งที่ท้าทายที่จะใช้ในทุกสถานการณ์
แกรี่พูดแทรกแม้ในกลุ่มควบคุม ก็ยังยากที่จะตีความการมีส่วนร่วมอย่างถูกต้อง
Paul ยอมรับว่ามีการทดลองหลายครั้งที่มีการวัดแบบสดที่ทำให้เข้าใจผิด ตัวอย่างที่เขาอ้างถึงคือตัวอย่างข้อมูล เช่นเดียวกับ "อัตราหน้าถัดไป" ที่อ้างถึงในคำถาม #4
Paul ยังอ้างอิงการทดสอบสดที่ดำเนินมายาวนานซึ่งเปลี่ยนผลลัพธ์ #2 และ #4 ในผลการค้นหา เป็นการสุ่มและสำหรับผู้ใช้ 0.02% เท่านั้น ผลลัพธ์? ผู้คนจำนวนมากคลิกที่ผลลัพธ์ #1 พอลอธิบายสิ่งนี้:
“พวกเขาเห็น #1-- พวกเขาไม่รู้ว่าชอบหรือไม่-- พวกเขาดูสองซึ่งแย่กว่า #2 มากจริงๆ พวกเขายอมแพ้เพราะผลลัพธ์ที่ควรจะเป็นที่ #4 และเป็น อันที่จริงอันดับที่ 2 แย่มากที่พวกเขาคลิกที่ #1"
— Paul Haahr ที่ SMX West 2016 อธิบายการทดลองใช้งานจริงของ Google ที่นำไปสู่การวัดการคลิกที่ผิดปกติ
อคติที่น่าสนใจอีกประการหนึ่งที่ Paul กล่าวถึงคืออันดับ #10 ได้รับการ "คลิกมากกว่า" มากกว่าตำแหน่งที่ #8 และ #9 รวมกัน ทำไม? เพราะเป็นผลลัพธ์สุดท้ายก่อนหน้าถัดไปและไม่มีใครต้องการคลิกไปยังหน้าถัดไป
ถึงกระนั้น #10 ก็ยังทำได้แย่กว่าตำแหน่ง #7
ประเด็นทั้งหมดนี้? CTR เป็นสัญญาณที่ยากมากที่จะใช้ ซึ่งมักเป็นผลมาจากอคติที่แปลกประหลาดและพฤติกรรมของมนุษย์ที่คาดเดาไม่ ได้
16: คุณกำลังอ่านอะไรอยู่ตอนนี้?
Paul อ่านว่า "วารสารศาสตร์มากมายและหนังสือน้อยมาก" เขายังฟังหนังสือเสียงมากมายเกี่ยวกับการเดินทางระหว่างซานฟรานซิสโกและเมาน์เทนวิว
หนังสือที่พอลกล่าวถึง:
- Garth Risk เมือง Hallberg ลุกเป็น ไฟ
- และซินแคลร์ ลูอิส เรื่อง It Can't Happen Here
...และนั่นคือห่อ!
คำถาม? ความคิดเห็น? ความคิด? ปล่อยให้พวกเขาด้านล่าง!
