การจัดอันดับการค้นหาแบบจำลองสิทธิบัตรตามชุดข้อมูลขนาดใหญ่ที่อัปเดต

เผยแพร่แล้ว: 2018-08-22

แบบจำลองอันดับการค้นหาและชุดข้อมูลขนาดใหญ่

ตามแง่มุมหนึ่งที่สอดคล้องกับหลักการของการประดิษฐ์ จะมีวิธีการจัดลำดับเอกสารให้ วิธีการนี้อาจรวมถึงการสร้างแบบจำลองการจัดอันดับการค้นหาที่คาดการณ์ความเป็นไปได้ที่เอกสารจะถูกเลือกและฝึกอบรมแบบจำลองการจัดอันดับโดยใช้ชุดข้อมูลที่มีอินสแตนซ์หลายสิบล้านรายการ

ย้อนกลับไปในปี 2011 ฉันได้เขียนเกี่ยวกับสิทธิบัตรที่ Google มอบให้ในปี 2550 เกี่ยวกับการสร้างแบบจำลองการจัดอันดับการค้นหาที่ใช้ข้อมูลจำนวนมาก เกี่ยวกับข้อความค้นหา เอกสารบนเว็บ และผู้ค้นหา โพสต์ที่ฉันเขียนเกี่ยวกับสิ่งนั้นคือ Google และ Large Scale Data Models เช่น Panda และเวอร์ชันของสิทธิบัตรที่ฉันเขียนเกี่ยวกับตอนนั้นคือเอกสารการจัดอันดับตามชุดข้อมูลขนาดใหญ่

สิทธิบัตรแบบจำลองการจัดอันดับการค้นหานั้นได้รับการอัปเดตผ่านการใช้สิทธิบัตรต่อเนื่องเป็นครั้งที่สาม สิทธิบัตรต่อเนื่องสองฉบับก่อนหน้านี้ไม่ได้รับอนุญาต แต่ล่าสุดได้รับแล้ว และสามารถดูได้ที่ลิงก์ด้านล่างย่อหน้านี้ คำอธิบายดูเหมือนจะเหมือนกับฉบับดั้งเดิมที่ยื่นในปี 2546 การอ้างสิทธิ์ได้รับการเขียนใหม่อย่างกว้างขวางและควรค่าแก่การดูเพราะคำอธิบายใหม่ระบุว่าความพยายามในการจดสิทธิบัตรนี้เป็นอย่างไร สามารถดูสิทธิบัตรการจัดอันดับการค้นหาเวอร์ชันล่าสุดได้ที่:

จัดอันดับเอกสารตามชุดข้อมูลขนาดใหญ่
ผู้ประดิษฐ์: Jeremy Bem, Georges R. Harik, Joshua L. Levenberg, Noam M. Shazeer และ Simon Tong
ผู้รับมอบหมาย: Google LLC
สิทธิบัตรสหรัฐอเมริกา: 10,055,461
ได้รับ: 21 สิงหาคม 2018
ยื่น: 31 กรกฎาคม 2015

เชิงนามธรรม

ระบบจัดลำดับเอกสารตามแบบจำลองการจัดลำดับอย่างน้อยบางส่วน อาจมีการสร้างแบบจำลองการจัดอันดับเพื่อคาดการณ์ความเป็นไปได้ที่เอกสารจะถูกเลือก ระบบอาจได้รับคำค้นหาและระบุเอกสารที่เกี่ยวข้องกับคำค้นหา จากนั้นระบบอาจจัดอันดับเอกสารตามรูปแบบการจัดอันดับและรูปแบบผลการค้นหาสำหรับคำค้นหาจากเอกสารที่จัดลำดับอย่างน้อยบางส่วน

อัปเดตการอ้างสิทธิ์ในสิทธิบัตรแบบจำลองอันดับการค้นหา

ควรเปรียบเทียบการอ้างสิทธิ์จากเวอร์ชันแรกสุดของสิทธิบัตรการจัดอันดับการค้นหานี้กับล่าสุด เพื่อให้เข้าใจว่ามีการเปลี่ยนแปลงไปมากน้อยเพียงใด การอ่านโพสต์ที่ฉันเขียนเกี่ยวกับเวอร์ชันแรกก่อนหน้านี้อาจช่วยให้เข้าใจว่าเนื้อหาครอบคลุมอะไรบ้าง ฉันกำลังรวมสำเนาของการอ้างสิทธิ์ครั้งแรกจากแต่ละฉบับที่นี่ เพราะพวกเขาแสดงให้เห็นค่อนข้างแตกต่างในสิ่งที่สิทธิบัตรนำไปใช้

ในสิทธิบัตรฉบับดั้งเดิม การอ้างสิทธิ์ครั้งแรกสั้นกว่ามากและไม่มีรายละเอียดมากนัก มันบอกเราเกี่ยวกับ:

1. วิธีการแบบใช้คอมพิวเตอร์ ประกอบด้วย: การสร้างแบบจำลองการจัดอันดับที่คาดการณ์ความเป็นไปได้ที่เอกสารจะถูกเลือกโดย: การจัดเก็บข้อมูลที่เกี่ยวข้องกับการค้นหาก่อนหน้าจำนวนมาก กำหนดความน่าจะเป็นก่อนหน้าของการเลือกโดยพิจารณาจากบางส่วนเป็นอย่างน้อย ข้อมูลที่เกี่ยวข้องกับการค้นหาก่อนหน้า และสร้างแบบจำลองการจัดอันดับตาม อย่างน้อยก็ส่วนหนึ่งจากความน่าจะเป็นของการเลือกก่อนหน้า ฝึกอบรมโมเดลการจัดอันดับโดยใช้ชุดข้อมูลที่มีอินสแตนซ์ประมาณสิบล้านรายการ การระบุเอกสารที่เกี่ยวข้องกับคำค้นหา การให้คะแนนเอกสารตามรูปแบบการจัดอันดับอย่างน้อยก็บางส่วน การสร้างผลการค้นหาสำหรับคำค้นหาจากเอกสารคะแนน; และแสดงผลการค้นหา

เปรียบเทียบการอ้างสิทธิ์ดังกล่าวกับเวอร์ชันล่าสุดของสิทธิบัตรโมเดลการจัดอันดับการค้นหาซึ่งมีรายละเอียดมากขึ้น:

สิ่งที่อ้างสิทธิ์คือ:

1. วิธีการที่ใช้คอมพิวเตอร์ประกอบด้วย: การรับโดยระบบการค้นหาแบบกระจาย การรวบรวมข้อมูลการฝึกอบรมที่ประกอบด้วยอินสแตนซ์การฝึกอบรมจำนวนมากที่แต่ละรายการระบุเอกสารแรกตามลำดับที่เลือกโดยผู้ใช้เฉพาะเมื่อมีการระบุเอกสารแรกในผลการค้นหาที่ให้ไว้ โดยระบบการค้นหาไปยังผู้ใช้เฉพาะเพื่อตอบสนองต่อคำค้นหาที่ออกโดยผู้ใช้รายนั้น การแบ่งพาร์ติชั่นการรวบรวมข้อมูลการฝึกอบรมผ่านอุปกรณ์คำนวณจำนวนมากของระบบการค้นหาแบบกระจาย สร้างแบบจำลองการจัดอันดับโดยระบบการค้นหาแบบกระจายซึ่งสร้างโอกาสที่ผู้ใช้รายใดรายหนึ่งจะเลือกเอกสารเฉพาะเมื่อระบุโดยผลการค้นหาหนึ่งรายการหรือมากกว่าที่ให้ไว้เพื่อตอบสนองต่อคำค้นหาเฉพาะที่ส่งโดยผู้ใช้รายนั้นรวมถึงการประมวลผลโดย อุปกรณ์คอมพิวเตอร์แต่ละเครื่องจากอุปกรณ์คอมพิวเตอร์จำนวนมาก อินสแตนซ์การฝึกอบรมที่กำหนดให้กับอุปกรณ์คอมพิวเตอร์ ซึ่งรวมถึง: การเลือกตามอุปกรณ์คอมพิวเตอร์ เงื่อนไขตัวเลือก โดยที่เงื่อนไขตัวเลือกระบุค่าสำหรับคุณลักษณะผู้ใช้ตั้งแต่หนึ่งรายการขึ้นไป คุณลักษณะการสืบค้นหนึ่งรายการขึ้นไป และคุณลักษณะของเอกสารตั้งแต่หนึ่งเครื่องขึ้นไปโดยส่งโดยเครื่องคำนวณไปยังเครื่องคำนวณอื่น ๆ ส่วนใหญ่ของอุปกรณ์คำนวณการร้องขอเพื่อคำนวณสถิติท้องถิ่นสำหรับเงื่อนไขผู้สมัครรับโดยเครื่องคำนวณจากเครื่องคำนวณอื่น ๆ ของแต่ละคน หรือมากกว่าอุปกรณ์คอมพิวเตอร์อื่น ๆ สถิติที่คำนวณตามลำดับสำหรับเงื่อนไขตัวเลือกที่คำนวณโดยการคำนวณอื่น ๆ รองโดยใช้ค่าของอินสแตนซ์การฝึกอบรมในพื้นที่ที่กำหนดให้กับอุปกรณ์คอมพิวเตอร์อื่น การคำนวณ โดยอุปกรณ์คำนวณ น้ำหนักสำหรับเงื่อนไขผู้สมัครตามสถิติที่คำนวณที่ได้รับจากอุปกรณ์คอมพิวเตอร์อื่นอย่างน้อยหนึ่งเครื่องสำหรับเงื่อนไขผู้สมัคร กำหนดโดยอุปกรณ์คำนวณว่าควรเพิ่มกฎใหม่ที่ประกอบด้วยเงื่อนไขผู้สมัครและน้ำหนักที่คำนวณไว้ในแบบจำลองการจัดอันดับและในการตอบสนองการเพิ่มกฎใหม่ลงในแบบจำลองการจัดอันดับและการจัดหาโดยอุปกรณ์คำนวณซึ่งกันและกัน อุปกรณ์คำนวณจากอุปกรณ์คอมพิวเตอร์ส่วนใหญ่ ข้อบ่งชี้ว่ากฎใหม่ซึ่งประกอบด้วยเงื่อนไขของผู้สมัครและน้ำหนักที่คำนวณควรเพิ่มลงในแบบจำลองการจัดอันดับ รับคำค้นหาที่ส่งโดยผู้ใช้รายแรก ได้รับผลการค้นหาจำนวนมากที่ตรงกับคำค้นหา โดยที่ผลการค้นหาแต่ละรายการจะระบุเอกสารที่เกี่ยวข้องของเอกสารจำนวนมาก กำหนดหนึ่งคุณลักษณะขึ้นไปของผู้ใช้คนแรกและหนึ่งคุณลักษณะหรือมากกว่าของคำค้นหาที่ส่งโดยผู้ใช้คนแรก โดยใช้หนึ่งคุณลักษณะขึ้นไปของผู้ใช้รายแรกและคุณลักษณะอย่างน้อยหนึ่งอย่างของคำค้นหาเป็นข้อมูลป้อนเข้าสู่รูปแบบการจัดอันดับเพื่อคำนวณ สำหรับแต่ละเอกสารที่ระบุโดยผลการค้นหา โอกาสตามลำดับที่ผู้ใช้รายแรกจะเลือกเอกสารเมื่อ จัดทำขึ้นเพื่อตอบสนองต่อคำค้นหา และจัดอันดับผลการค้นหาจำนวนมากโดยพิจารณาจากความเป็นไปได้ที่คำนวณตามลำดับสำหรับแต่ละเอกสาร โอกาสที่คำนวณได้สำหรับแต่ละเอกสารคือโอกาสที่ผู้ใช้คนแรกจะเลือกเอกสารเมื่อระบุเพื่อตอบสนองต่อคำค้นหา

การอ้างสิทธิ์บอกเราว่ารูปแบบการจัดอันดับการค้นหาเกี่ยวข้องกับคุณลักษณะเกี่ยวกับผู้ใช้ เกี่ยวกับคำค้นหา และเกี่ยวกับเอกสารที่จัดอันดับ นี่เป็นเพียงคุณลักษณะบางส่วนที่ระบุไว้ในการอ้างสิทธิ์ใหม่:

  • ภาษาของผู้ใช้คนแรก
  • ข้อความค้นหาก่อนหน้าหนึ่งรายการขึ้นไปที่ออกโดยผู้ใช้คนแรก
  • หลายครั้งที่ผู้ใช้คนแรกเข้าถึงเอกสารบางฉบับ
  • ภาษาของแบบสอบถาม
  • หนึ่งคำขึ้นไปของแบบสอบถาม
  • เอกสารหนึ่งวินาทีขึ้นไปที่ผู้ใช้รายนั้นไม่ได้เลือก
  • ข้อมูลแสดงตำแหน่งของเอกสารแรกที่เลือกในลำดับของผลการค้นหาที่ให้ไว้ในการตอบแบบสอบถามเฉพาะ
  • เอกสารจำนวนหนึ่งที่จัดลำดับอยู่เหนือเอกสารแรกที่เลือกในผลการค้นหาที่มอบให้กับผู้ใช้รายนั้นตามคำค้นหานั้นๆ
  • ตำแหน่งของผู้ใช้รายแรก
  • มีการอ้างสิทธิ์อื่นๆ ในสิทธิบัตรเวอร์ชันใหม่ซึ่งใช้เวลานานกว่ามาก ซึ่งทำให้ควรค่าแก่การพิจารณาและให้ความสนใจ

    สิทธิบัตรรุ่นแรกบอกเราว่าให้ความสนใจกับตัวอย่างข้อมูลต่างๆ มากมายที่แบ่งออกเป็นสามส่วนเกี่ยวกับความแตกต่างของผู้ค้นหา คำค้นหา และเอกสาร อย่างที่ฉันพูดในโพสต์แรกของฉันเกี่ยวกับสิทธิบัตรดั้งเดิม:

    ในสิทธิบัตรของ Google ฉบับแรก โมเดลที่สร้างขึ้นจะพิจารณาจากการรวมกันของข้อมูลจากผู้ใช้ คำค้นหาที่พวกเขาใช้ และเอกสารที่ผู้ใช้อาจเลือกหรือไม่ก็ได้ แต่ละชุดค่าผสมเหล่านี้เรียกว่า "ตัวอย่าง อินสแตนซ์คือข้อมูล "สามเท่า": (u, q, d) โดยที่ u คือข้อมูลผู้ใช้ q คือข้อมูลการสืบค้นจากผู้ใช้ และ d คือข้อมูลเอกสารที่เกี่ยวข้องกับหน้าที่ส่งคืนจากข้อมูลการสืบค้น

    ทำความเข้าใจกับการอัปเดตสิทธิบัตรรูปแบบการจัดอันดับการค้นหา

    Google เพิ่งมีการอัปเดตหลักขนาดใหญ่ตามที่อธิบายไว้ใน Google Confirms Broad Core Algorithm Update: The Facts & Advice เรารู้ว่า Google ได้อัปเดตอัลกอริธึมการค้นหาหลักซึ่งอาจ 2 ครั้งต่อวันเป็นเวลานาน เราไม่ทราบว่าการอัปเดตที่สะท้อนให้เห็นในเวอร์ชันใหม่ของสิทธิบัตรแบบจำลองการจัดอันดับการค้นหานี้อาจถูกนำไปใช้เมื่อใด แต่อาจเป็นเพราะเป็นสิทธิบัตรที่ต่อเนื่อง มันจะสะท้อนถึงการเปลี่ยนแปลงในกระบวนการเบื้องหลังสิทธิบัตร อาจถูกนำไปใช้ในอัลกอริธึมเมื่อเวลาผ่านไป หาก Google ใช้วิธีนี้ในการจัดอันดับหน้าเว็บ ก็อาจถือว่าเป็นส่วนหนึ่งของอัลกอริทึมการค้นหาหลัก สิทธิบัตรนี้พิจารณาข้อมูลจำนวนมากที่เกี่ยวข้องกับคำค้นหาและเอกสารของผู้ใช้เพื่อกำหนดอันดับการค้นหา