การอัปเดต Groundhog เพิ่งเกิดขึ้นที่ Google หรือไม่
เผยแพร่แล้ว: 2017-02-08
เรื่องราวที่เกิดขึ้นที่ Search Engine Land เมื่อไม่กี่วันก่อนได้แจ้งให้เราทราบถึงอัลกอริทึมใหม่ที่เป็นไปได้ที่ Google: การอัปเดตอัลกอริทึมของ Google ที่ไม่ได้รับการยืนยันอาจดีกว่าในการลดราคาลิงก์และสแปม ก่อนที่ฉันจะอ่านโพสต์นั้น ฉันเพิ่งอ่านสิทธิบัตรใหม่ของ Google และโพสต์นั้นทำให้ฉันนึกถึงสิทธิบัตร สิทธิบัตรได้รับเมื่อวันที่ 31 มกราคม 2017 และอาจเป็นไปได้ว่าสิ่งที่อธิบายในสิทธิบัตรอาจเป็นสิ่งที่ผู้คนกำลังประสบในการอัปเดตที่รายงานที่ Search Engine Land
อัลกอริทึมเบื้องหลังสิทธิบัตรนั้นขึ้นอยู่กับการจัดอันดับที่เกี่ยวข้องกับจำนวนทรัพยากรที่อาจเชื่อมโยงกับทรัพยากรที่อาจได้รับการจัดอันดับ (เช่นสิทธิบัตร PageRank ของสแตนฟอร์ด) ในอดีต ที่ Google หน้าที่มีทรัพยากรจำนวนมากที่เชื่อมโยงถึงอาจอยู่ในอันดับที่สูงกว่าหน้าอื่นๆ ที่มีทรัพยากรน้อยกว่าที่เชื่อมโยงถึง แต่ถ้า Google ตัดสินใจที่จะดูทรัพยากรเหล่านั้นให้ละเอียดยิ่งขึ้นและลดระดับน้ำหนักการจัดอันดับที่ส่งผ่านโดยพวกเขาล่ะ เราได้เห็นสัญญาณบ่งชี้ว่า Google อาจทำสิ่งดังกล่าวในสิทธิบัตร Surfer ที่สมเหตุสมผลซึ่งมีลิงก์ส่งผ่าน PageRank จำนวนต่างๆ อีกวิธีหนึ่งในการเปลี่ยนจำนวนเพจแรงก์ที่อาจส่งไปพร้อมกับลิงก์อาจขึ้นอยู่กับปริมาณการรับส่งข้อมูลที่ทรัพยากรอาจได้รับจากลิงก์ และเวลาพักของการเข้าชมจากลิงก์เหล่านั้น ไม่ว่าจะเป็นการคลิกสั้นๆ การคลิกปานกลาง หรือ คลิกยาว
วิธีการเชื่อมโยงนี้อาจพิจารณาถึงแง่มุมอื่นๆ ของลิงก์ เช่น ข้อความจุดยึดสำหรับลิงก์ที่ชี้ไปยังแหล่งข้อมูลต้นทาง ซึ่งจะถือว่าเป็น n-gram และจะกำหนดคะแนนแหล่งที่มาสำหรับข้อความจุดยึดที่ใช้เชื่อมโยงไปยังหน้า .
นี่เป็นข้อความที่น่าสนใจที่ฉันพบในครั้งแรกที่อ่านสิทธิบัตรที่ได้รับใหม่:
การจัดอันดับผลการค้นหาสามารถปรับได้ตามแนวโน้มของคำค้นหาที่จะแสดงผลการค้นหาที่เกี่ยวข้องกับสแปม การถ่วงน้ำหนักของจำนวนลิงค์ทรัพยากรในกระบวนการจัดอันดับสามารถลดลงได้สำหรับคำค้นหาที่มีแนวโน้มสูงที่จะแสดงผลการค้นหาที่เกี่ยวข้องกับสแปม เพื่อลดความเบ้ในการจัดอันดับทรัพยากรที่เกิดจากทรัพยากรบางส่วนที่มีลิงก์จำนวนมากเกินสัดส่วนเมื่อเทียบกับจำนวน การเลือกลิงค์
สิทธิบัตรบอกเราว่ามีข้อดีหลายประการในการใช้งานที่คุ้มค่า รวมถึงการลดราคาลิงก์บางรายการในการจัดอันดับหน้าเว็บที่ลิงก์ด้วย
ข้อดีของกระบวนการจดสิทธิบัตรนี้
1) ผลการค้นหาสำหรับทรัพยากรสามารถจัดอันดับได้แม่นยำยิ่งขึ้นโดยใช้ข้อมูลเกี่ยวกับลิงก์ไปยังแหล่งข้อมูลและการเลือกลิงก์เหล่านั้น
2) คะแนนเมล็ดพันธุ์สามารถกำหนดได้สำหรับทรัพยากรตามจำนวนลิงก์ไปยังทรัพยากรที่มีอยู่ในแหล่งข้อมูลอื่นและจำนวนลิงก์ที่เลือก
3) แหล่งข้อมูลต้นทางที่มีลิงก์ไปยังทรัพยากรที่มีจำนวนลิงก์ที่ไม่สมส่วนสัมพันธ์กับจำนวนการเลือก ตามที่ระบุไว้โดยคะแนนเริ่มต้นสำหรับทรัพยากรเหล่านั้น สามารถระบุได้
4) ลิงก์จากแหล่งข้อมูลที่ระบุเหล่านี้สามารถลดราคาได้ในกระบวนการจัดอันดับที่จัดอันดับทรัพยากรตามจำนวนลิงก์ไปยังทรัพยากร
5) แหล่งข้อมูลที่ข้อมูลเกี่ยวกับลิงก์ไม่พร้อมใช้งานหรือไม่เพียงพอ สามารถให้คะแนนได้โดยใช้ข้อมูลเกี่ยวกับทรัพยากรที่มีลิงก์ไปยังแหล่งข้อมูล
สิทธิบัตรที่ฉันกำลังเขียนอยู่สามารถพบได้ที่นี่ และคุ้มค่าที่จะใช้เวลากับ:
การกำหนดมาตรการคุณภาพสำหรับทรัพยากร
ผู้ประดิษฐ์: Hyung-Jin Kim, Paul Haahr, Kien Ng, Chung Tin Kwok, Moustafa A. Hammad และ Sushrut Karanjkar
ผู้รับมอบหมาย: Google
สิทธิบัตรสหรัฐอเมริกา: 9,558,233
ได้รับ: 31 มกราคม 2017
ยื่น: 31 ธันวาคม 2012
เชิงนามธรรม:
วิธีการ ระบบ และอุปกรณ์ รวมถึงโปรแกรมคอมพิวเตอร์ที่เข้ารหัสบนสื่อบันทึกข้อมูลคอมพิวเตอร์ เพื่อกำหนดการวัดคุณภาพของทรัพยากร ในลักษณะหนึ่ง วิธีการรวมถึงการกำหนดคะแนนเมล็ดพันธุ์สำหรับทรัพยากรเมล็ดพันธุ์แต่ละรายการในชุด คะแนนเมล็ดพันธุ์สำหรับทรัพยากรเมล็ดพันธุ์อาจขึ้นอยู่กับจำนวนของแหล่งข้อมูลที่มีลิงก์ไปยังทรัพยากรเมล็ดพันธุ์และจำนวนของลิงก์ที่เลือก มีการระบุชุดของทรัพยากรต้นทาง คะแนนที่มาจะถูกกำหนดสำหรับทรัพยากรแต่ละแหล่ง คะแนนแหล่งที่มาสำหรับทรัพยากรต้นทางจะขึ้นอยู่กับคะแนนเมล็ดพันธุ์สำหรับทรัพยากรเมล็ดพันธุ์แต่ละรายการที่เชื่อมโยงกับทรัพยากรต้นทาง มีการระบุทรัพยากรที่อ้างอิงแหล่งที่มา คะแนนทรัพยากรถูกกำหนดสำหรับทรัพยากรที่อ้างอิงแหล่งที่มาแต่ละรายการ คะแนนทรัพยากรสำหรับทรัพยากรที่อ้างอิงแหล่งที่มาสามารถขึ้นอยู่กับคะแนนแหล่งที่มาสำหรับทรัพยากรแต่ละแหล่งที่มีลิงก์ไปยังทรัพยากรที่อ้างอิงแหล่งที่มา
ลดระดับตามจำนวนลิงก์ที่สูงซึ่งไม่ได้สร้างการเข้าชมมากนัก
นี่เป็นอีกข้อความหนึ่งจากสิทธิบัตรที่ทำให้ฉันประทับใจ เพราะมันชี้ไปที่ผลลัพธ์ที่อาจเป็นอันตรายสำหรับลิงก์ที่ไม่ตรงกับความคาดหวังที่อาจได้รับสำหรับพวกเขา:
ระบบสามารถกำหนดการวัดคุณภาพสำหรับทรัพยากรบนเว็บโดยพิจารณาจากจำนวนทรัพยากรอื่นๆ ที่เชื่อมโยงไปยังทรัพยากรบนเว็บนั้น ๆ และปริมาณการรับส่งข้อมูลที่ทรัพยากรได้รับ ตัวอย่างเช่น กระบวนการจัดอันดับอาจจัดอันดับหน้าเว็บแรกที่มีหน้าเว็บอื่นๆ จำนวนมากที่เชื่อมโยงไปยังหน้าเว็บแรกสูงกว่าหน้าเว็บที่มีหน้าเว็บที่เชื่อมโยงน้อยกว่า อย่างไรก็ตาม แหล่งข้อมูลบางส่วนอาจเชื่อมโยงกับทรัพยากรอื่นๆ จำนวนมาก ในขณะที่ได้รับปริมาณการใช้ข้อมูลเพียงเล็กน้อยจากลิงก์ ตัวอย่างเช่น เอนทิตีอาจพยายามหลอกล่อกระบวนการจัดอันดับโดยใส่ลิงก์ไปยังแหล่งข้อมูลบนหน้าเว็บอื่น ลิงก์จำนวนมากนี้อาจทำให้อันดับของทรัพยากรเบี่ยงเบนไป เพื่อป้องกันความเบ้ดังกล่าว ระบบสามารถประเมิน "ไม่ตรงกัน" ระหว่างจำนวนของทรัพยากรที่เชื่อมโยงและปริมาณการใช้ข้อมูลที่สร้างขึ้นไปยังทรัพยากรจากทรัพยากรที่เชื่อมโยง หากทรัพยากรเชื่อมโยงกับทรัพยากรจำนวนหนึ่งซึ่งไม่สมส่วนกับการรับส่งข้อมูลที่ได้รับจากการใช้ลิงก์เหล่านั้น ทรัพยากรนั้นอาจถูกลดระดับในกระบวนการจัดอันดับ
การเข้าชมจะถูกกำหนดได้อย่างไรเนื่องจากลิงก์?
การประเมินทรัพยากรสามารถทำได้โดยกระบวนการ "ดึง-ดัน" ในตัวอย่างกระบวนการดึง-ดัน คะแนนเริ่มต้นจะถูกกำหนดสำหรับชุดทรัพยากรเมล็ดพันธุ์แต่ละชุดซึ่งมีข้อมูลการเชื่อมโยงและการรับส่งข้อมูลเพียงพอ คะแนนเมล็ดพันธุ์สำหรับทรัพยากรเมล็ดพันธุ์เฉพาะจะขึ้นอยู่กับจำนวนของแหล่งข้อมูลที่เชื่อมโยงไปยังทรัพยากรเมล็ดพันธุ์และปริมาณของการรับส่งข้อมูลที่สร้างขึ้นไปยังทรัพยากรจากทรัพยากรต้นทาง ในการใช้งานบางอย่าง คะแนนเริ่มต้นสำหรับทรัพยากรเฉพาะคืออัตราส่วนระหว่างจำนวนการเลือกลิงก์ไปยังทรัพยากรนั้น ๆ และจำนวนทรัพยากรต้นทางที่เชื่อมโยงไปยังทรัพยากรนั้น ๆ
คะแนนตั้งต้นเหล่านี้ "ดึง" ขึ้นไปที่ทรัพยากรต้นทางและใช้เพื่อกำหนดคะแนนแหล่งที่มาสำหรับทรัพยากรแต่ละแหล่ง ในการใช้งานบางอย่าง คะแนนแหล่งที่มาสำหรับทรัพยากรต้นทางจะขึ้นอยู่กับคะแนนเมล็ดพันธุ์สำหรับทรัพยากรเมล็ดพันธุ์แต่ละรายการที่ทรัพยากรต้นทางเชื่อมโยง คะแนนแหล่งที่มาเหล่านี้สามารถใช้เพื่อจัดประเภทแหล่งข้อมูลแต่ละแหล่งว่าเป็น "แหล่งที่ผ่านการรับรอง" หรือ "แหล่งที่ไม่มีเงื่อนไข"
ลิงค์จากแหล่งที่อาจถูกพิจารณาว่าไม่มีเงื่อนไขอาจถูกลดราคา
ทรัพยากรที่เกี่ยวข้องกับสแปม
ข้อความค้นหาบางรายการมีแนวโน้มที่จะสร้างสแปมมากกว่าคำถามอื่นๆ สิทธิบัตรชี้ไปที่กลุ่มหนึ่งโดยเฉพาะ:
ตัวอย่างเช่น ผู้เผยแพร่เว็บไซต์แบ่งปันวิดีโอจำนวนมากพยายามที่จะจัดการการจัดอันดับโดยการสร้างลิงก์ไปยังเว็บไซต์ ส่งผลให้มีลิงก์จำนวนมากอย่างไม่สมส่วนเมื่อเทียบกับจำนวนการเลือก ในขณะที่เว็บไซต์ข่าวระดับประเทศมักไม่พยายามบิดเบือนข้อมูลดังกล่าว
สำหรับข้อความค้นหาที่มักจะสร้างสแปมในปริมาณที่สูงกว่า การคลิกเพื่อคัดเลือกอาจให้คุณค่ามากกว่าในการคำนวณลิงก์นี้ เมื่อเทียบกับการเข้าชมที่ส่งโดยลิงก์เหล่านั้น:
สำหรับข้อความค้นหาที่มีแนวโน้มสูงในการแสดงหน้าเว็บที่เกี่ยวข้องกับสแปม ระบบสามารถใส่น้ำหนักที่มากขึ้นในการนับการเลือกสำหรับผลการค้นหา และน้ำหนักที่น้อยลงในการนับลิงก์ทรัพยากรสำหรับผลการค้นหาเมื่อจัดอันดับผลการค้นหา ดังนั้น ระบบอาจกล่าวได้ว่า "เชื่อถือ" จำนวนการคลิกมากกว่าจำนวนลิงก์ทรัพยากรสำหรับคำค้นหาที่มีแนวโน้มที่จะแสดงหน้าเว็บที่เกี่ยวข้องกับสแปม
คะแนนคุณภาพการคัดเลือกอาจขึ้นอยู่กับเวลาที่พักอาศัย
ส่วนหนึ่งของกระบวนการที่เกี่ยวข้องกับการคำนวณคะแนนคุณภาพของทรัพยากรเกี่ยวข้องกับการกำหนดคะแนนเมล็ดพันธุ์สำหรับทรัพยากรเมล็ดพันธุ์ นี้สามารถเริ่มต้นด้วยการระบุจำนวนทรัพยากรลิงค์สำหรับทรัพยากรเมล็ดพันธุ์ สามารถทำได้โดยดูจากจำนวนทรัพยากรที่มีลิงก์ไปยังทรัพยากรเมล็ดพันธุ์
แง่มุมถัดไปที่เกี่ยวข้องกับการระบุจำนวนการเลือกสำหรับทรัพยากรเมล็ดพันธุ์ จำนวนการเลือกนี้สำหรับทรัพยากรตั้งต้นอาจขึ้นอยู่กับจำนวนครั้งที่ลิงก์ไปยังทรัพยากรเริ่มต้นที่รวมอยู่ในทรัพยากรอื่นได้รับเลือก
คะแนนคุณภาพการคัดเลือกจะถูกกำหนดอย่างน้อยส่วนหนึ่งของการเลือกลิงก์ไปยังทรัพยากรเมล็ดพันธุ์ คะแนนคุณภาพการเลือกสำหรับการเลือกเป็นการวัดคุณภาพของการเลือกและสามารถใช้เพื่อลดการเลือกคุณภาพต่ำเมื่อพิจารณาคะแนนเมล็ดพันธุ์สำหรับทรัพยากรเมล็ดพันธุ์
สิ่งนี้ทำให้หวนคิดถึงหนังสือของสตีเวน เลวี ซึ่งเรียกว่า In the Plex ซึ่งเขากล่าวว่าตัวชี้วัดหนึ่งที่มักได้รับการปฏิบัติด้วยทัศนคติเชิงบวกจากผู้คนใน Google คือสิ่งที่พวกเขาเรียกว่า "The Long Click"
สิทธิบัตรบอกเรา:
คะแนนคุณภาพการเลือกอาจสูงกว่าสำหรับการเลือกที่ส่งผลให้มีเวลาพักนาน (เช่น มากกว่าช่วงเวลาเกณฑ์) มากกว่าคะแนนคุณภาพการเลือกสำหรับการเลือกที่ส่งผลให้มีเวลาพักสั้น (เช่น น้อยกว่าเวลาเกณฑ์ ระยะเวลา). เนื่องจากการเลือกลิงก์ที่สร้างขึ้นโดยอัตโนมัติมักมีระยะเวลาสั้น เมื่อพิจารณาถึงเวลาในการหยุดนิ่งในการพิจารณาคะแนนตั้งต้นสามารถอธิบายการเลือกลิงก์ที่ผิดพลาดเหล่านี้ได้
สิทธิบัตรยังบอกเราด้วยว่าพฤติกรรมการเลือกในอดีตบางอย่างอาจบ่งชี้ว่าการเลือกนั้นทำโดยผู้ใช้จริงมากกว่ากระบวนการอัตโนมัติบางอย่าง
ทรัพยากรที่มีคะแนนทรัพยากรค่อนข้างต่ำอาจถูกลดระดับลงในการจัดอันดับ และทรัพยากรที่มีคะแนนทรัพยากรสูงอาจได้รับการส่งเสริมในการจัดอันดับ
ซื้อกลับบ้าน
สิทธิบัตรให้รายละเอียดมากกว่าที่ฉันมีในโพสต์นี้ และขอแนะนำให้อ่านเป็นอย่างยิ่ง นี่เป็นครั้งแรกที่ฉันจำได้ที่พยายามตั้งค่าคะแนนคุณภาพบางประเภทสำหรับลิงก์ที่ชี้ไปยังหน้าต่างๆ ในเว็บ และกำหนดว่าควรให้น้ำหนักเหล่านั้นมากน้อยเพียงใด สิทธิบัตรของนักเล่นกระดานโต้คลื่นที่สมเหตุสมผลนั้นแตกต่างไปจากการพิจารณาว่าลิงก์อาจส่งผ่านน้ำหนักเท่าใด โดยพิจารณาจากความน่าจะเป็นที่สำคัญโดยพิจารณาจากคุณลักษณะที่เกี่ยวข้องในวิธีการนำเสนอ (และที่) ของลิงก์บนหน้าเว็บ
ฉันพูดใน Twitter ว่าฉันจะเขียนเกี่ยวกับโพสต์ของ Search Engine Land ที่ฉันพูดถึงตอนต้นของโพสต์นี้ และฉันได้เดาว่าอาจมีการใช้งานอะไรบ้างที่จะส่งผลให้เกิดการเปลี่ยนแปลงอัลกอริทึมของ Google ว่า ผู้คนได้สังเกตเห็น ฉันได้รับข้อเสนอแนะจาก Jonathan Hochman ที่ฉันคิดว่าจะเรียกว่า Groundhog Update เมื่อพิจารณาจากจังหวะเวลา และดูเหมือนว่าจะมีผลเมื่อต้นเดือนกุมภาพันธ์ สิทธิบัตรนี้ได้รับในวันสุดท้ายของเดือนมกราคม และถึงแม้จะสามารถดำเนินการได้ก่อนหน้านั้น แต่ก็เป็นไปได้ที่สิทธิบัตรนี้จะเริ่มมีผลบังคับใช้เมื่อต้นเดือนกุมภาพันธ์
สิ่งที่เกิดขึ้นตามอัลกอริทึมที่ Google เป็นการถ่วงน้ำหนักของการเชื่อมโยงทรัพยากรโดยพิจารณาจากการรับส่งข้อมูลที่เกี่ยวข้อง หรือมีความเกี่ยวข้องกับผลลัพธ์ที่เป็นสแปมหรือไม่

