คุณใช้การจัดทำดัชนีตามวลีของ Google หรือไม่

เผยแพร่แล้ว: 2017-05-18

การจัดทำดัชนีตามวลีสามารถช่วยให้หน้ามีความเกี่ยวข้องมากขึ้นสำหรับคำค้นหาที่เฉพาะเจาะจง โดยมีวลีที่เกี่ยวข้องกันซึ่งเกี่ยวข้องกับข้อความค้นหาเหล่านั้นและ anchor text ที่ชี้ไปยังหน้านั้นโดยใช้วลีที่เกี่ยวข้อง การจัดทำดัชนีตามวลีเป็นสิ่งที่ Google เคยทำมาตั้งแต่ปี 2547 เป็นอย่างน้อย

เมื่อ Anna Lynne Patterson เขียนบทความเรื่อง Why Writing Your Own Search Engine is Hard เธอได้สร้างหนึ่งในเครื่องมือค้นหาที่ใหญ่ที่สุดที่จะพบบนเว็บ โดยใช้ชื่อ Recall ซึ่งจัดทำดัชนีหน้าเว็บกว่า 30 พันล้านหน้าบนอินเทอร์เน็ต คลังเก็บเอกสารสำคัญ. เธอลงเอยด้วยการร่วมงานกับ Google ไม่นานหลังจากนั้น และเริ่มยื่นจดสิทธิบัตรเกี่ยวกับการจัดทำดัชนีแบบวลี ฉันได้เขียนเกี่ยวกับสิทธิบัตรบางส่วนที่เธอออกมาพร้อมกับ:

02/10/2006 – ย้ายไปที่เพจแรงก์: Google กำลังมองหาวลี?
05/19/2006 – Google ตั้งเป้าไว้ที่ 100 พันล้านหน้า?
12/29/2006 – การดึงข้อมูลตามวลีและการตรวจจับสแปม
09/16/2008 – ได้รับสิทธิบัตรการจัดทำดัชนีตามวลีของ Google
03/15/2009 – วลียอดนิยมสำหรับเว็บไซต์ของคุณคืออะไร
04/07/2010 – การใช้ถ้อยคำและการทบทวนการจัดทำดัชนีตามวลีของ Google อีกครั้ง
12/19/2011 – 10 สิทธิบัตร SEO ที่สำคัญที่สุด ตอนที่ 5 – การสร้างดัชนีแบบวลี
08/05/2016 – การสร้างแบบจำลองเฉพาะเรื่องโดยใช้คำที่เกี่ยวข้องในเอกสารและ Anchor Text

ฉันรู้ว่าคุณสนใจมากเมื่อเริ่มโพสต์บล็อก หากคุณต้องการทราบข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อนี้ คุณจะกลับมาที่รายการด้านบนและไปที่โพสต์ก่อนหน้านี้บางส่วน ฉันไม่ได้บอกคุณว่า Anna Lynne Patterson ออกจาก Google จนถึงจุดหนึ่งเพื่อเริ่มต้น Cuil ซึ่งเป็นคู่แข่งของ Google ที่ล้มเหลวอย่างน่าเสียดาย และได้รับการว่าจ้างจาก Google หลังจากที่ Cuil ปิดตัวลงในฐานะรองประธานฝ่ายการค้นหาของ Google

วันนี้ Google ได้รับสิทธิบัตรต่อเนื่องสำหรับสิทธิบัตรที่ยื่นครั้งแรกในปี 2550 ซึ่งทำให้ฉันมั่นใจเมื่อเปิดตัวครั้งแรกว่า Google ได้นำการจัดทำดัชนีแบบวลีมาใช้ นั่นเป็นเพราะวิธีการอธิบายระบบการจัดทำดัชนีแบบวลีว่าการทำงานดูเหมือนจะสมเหตุสมผลมากที่จะสร้างดัชนีบางสิ่งที่มีขนาดใหญ่และซับซ้อนเช่น The World Wide Web

สามารถดูสิทธิบัตรได้ที่:

สถาปัตยกรรมเซิร์ฟเวอร์ดัชนีโดยใช้รายการโพสต์วลีที่เป็นชั้นและชาร์ด
ผู้ประดิษฐ์: Pei Cao, Nadav Eiron, Soham Mazumdar, Anna L. Patterson, Russell Power และ Yonatan Zunger
ผู้รับมอบหมาย: Google Inc.
สิทธิบัตรสหรัฐอเมริกา 9,652,483
ได้รับ: 16 พฤษภาคม 2017
ยื่น: 23 พฤศจิกายน 2015

เชิงนามธรรม:

ระบบดึงข้อมูลใช้วลีเพื่อสร้างดัชนี เรียกค้น จัดระเบียบ และอธิบายเอกสาร วลีที่ดึงมาจากการรวบรวมเอกสาร เอกสารจะถูกจัดทำดัชนีตามวลีที่รวมไว้โดยใช้รายการโพสต์วลี รายการการลงรายการบัญชีวลีถูกเก็บไว้ในคลัสเตอร์ของเซิร์ฟเวอร์ดัชนี รายการการโพสต์วลีสามารถจัดกลุ่มเป็นกลุ่มและแบ่งกลุ่มเป็นพาร์ติชั่นได้ วลีในข้อความค้นหาจะถูกระบุตามการใช้ถ้อยคำที่เป็นไปได้ กำหนดการสืบค้นตามวลีถูกสร้างขึ้นจากวลีและปรับให้เหมาะสมเพื่อลดค่าใช้จ่ายในการดำเนินการค้นหาและการสื่อสาร การดำเนินการของกำหนดการคิวรีได้รับการจัดการเพื่อลดหรือขจัดการดำเนินการประมวลผลการสืบค้นที่เซิร์ฟเวอร์ดัชนีต่างๆ

ฉันได้เริ่มอ่านสิทธิบัตรเพื่อให้เข้าใจว่าเสิร์ชเอ็นจิ้นทำงานอย่างไร และอันนี้อธิบายดัชนีกลับหัวและรายการโพสต์ที่ประกอบด้วยคำศัพท์แต่ละคำ แล้วโพสต์รายการที่มีวลีที่มีความหมาย โพสต์สุดท้ายในรายการของฉันด้านบนใน "การสร้างแบบจำลองเฉพาะเรื่อง" เป็นเรื่องเกี่ยวกับสิทธิบัตรการจัดทำดัชนีแบบวลีที่ยื่นในปี 2555 เรื่อง "การรวมข้อมูลวลีที่เกี่ยวข้องภายนอกเข้ากับระบบดึงข้อมูลการจัดทำดัชนีแบบวลี" ซึ่งพูดถึงการมีอยู่ของบางอย่าง วลีบนหน้าสามารถใช้ทำนายลักษณะที่ปรากฏของวลีอื่นได้ ฉันขอแนะนำให้อ่านสิทธิบัตรล่าสุดนี้และคำอธิบายว่าเครื่องมือค้นหาแบบวลีทำงานอย่างไร มีความท้าทายบางอย่างในการพยายามตั้งค่าดัชนีแบบวลี เนื่องจากสิทธิบัตรบอกเราที่นี่:

ปัญหาคือเอกสารดัชนีระบบทั่วไปนั้นอิงตามเงื่อนไขส่วนบุคคลมากกว่าแนวคิด แนวคิดมักแสดงออกมาเป็นวลี เช่น “สสารมืด” “ประธานาธิบดีแห่งสหรัฐอเมริกา” หรือสำนวนเช่น “ภายใต้สภาพอากาศ” หรือ “เล็กน้อยโหล” อย่างดีที่สุด ระบบก่อนหน้านี้บางระบบจะจัดทำดัชนีเอกสารเกี่ยวกับชุดวลี "ที่รู้จัก" ที่กำหนดไว้ล่วงหน้าและน้อยที่สุด ซึ่งโดยทั่วไปแล้วผู้ปฏิบัติงานที่เป็นมนุษย์จะเลือก โดยทั่วไปแล้วการจัดทำดัชนีวลีมักหลีกเลี่ยงเนื่องจากความต้องการด้านการคำนวณและหน่วยความจำที่รับรู้เพื่อระบุวลีที่เป็นไปได้ทั้งหมด เช่น สาม สี่ หรือห้า หรือมากกว่า ตัวอย่างเช่น สมมติว่าห้าคำใด ๆ สามารถประกอบเป็นวลีได้ และคลังข้อมูลขนาดใหญ่จะมีคำศัพท์เฉพาะอย่างน้อย 200,000 คำ จะมีวลีที่เป็นไปได้ประมาณ 3.2.times.10.sup.26 วลีที่เป็นไปได้ ชัดเจนมากว่าระบบที่มีอยู่สามารถจัดเก็บหรือ มิฉะนั้นจะจัดการโดยทางโปรแกรม ปัญหาเพิ่มเติมคือวลีที่ป้อนและออกจากพจนานุกรมอย่างต่อเนื่องในแง่ของการใช้งาน บ่อยกว่าคำแต่ละคำที่สร้างขึ้นใหม่ วลีใหม่ๆ มักถูกสร้างขึ้นจากเทคโนโลยี ศิลปะ เหตุการณ์ในโลก และกฎหมาย วลีอื่นๆ จะลดลงในการใช้งานเมื่อเวลาผ่านไป

ระบบการดึงข้อมูลที่มีอยู่บางระบบพยายามที่จะให้การดึงแนวคิดโดยใช้รูปแบบการเกิดขึ้นร่วมกันของคำแต่ละคำ ในระบบเหล่านี้ การค้นหาด้วยคำเดียว เช่น "ประธานาธิบดี" จะเรียกเอกสารที่มีคำอื่นๆ ที่มักปรากฏร่วมกับ "ประธานาธิบดี" เช่น "ขาว" และ "เฮาส์" แม้ว่าวิธีการนี้อาจสร้างผลการค้นหาที่มีเอกสารที่เกี่ยวข้องกับแนวคิดในระดับคำแต่ละคำ แต่โดยทั่วไปแล้วจะไม่รวบรวมความสัมพันธ์เฉพาะระหว่างวลีที่เกิดขึ้นร่วมกัน

ปัญหาที่ต้องการพื้นที่เก็บข้อมูลจำนวนมากเพื่อรวบรวมทุกอย่างบนระบบการจัดทำดัชนีแบบวลียังคงเกิดขึ้นเมื่อคุณพยายามสร้างดัชนีคำแต่ละคำ:

ปัญหาอีกประการหนึ่งกับระบบการจัดทำดัชนีตามคำที่มีอยู่นั้นอยู่ในการจัดเรียงของคอมพิวเตอร์เซิร์ฟเวอร์เพื่อเข้าถึงดัชนี ในระบบการจัดทำดัชนีทั่วไปสำหรับองค์กรขนาดใหญ่เช่นอินเทอร์เน็ต ดัชนีประกอบด้วยรายการการโพสต์สำหรับคำที่ไม่ซ้ำกันมากกว่า 200,000 คำ รายการการลงรายการบัญชีตามภาคการศึกษาแต่ละฉบับสามารถมีเอกสารได้นับแสน และไม่บ่อยนัก นับล้านรายการ โดยทั่วไป ดัชนีจะถูกแบ่งระหว่างเซิร์ฟเวอร์ดัชนีจำนวนมาก ซึ่งแต่ละเซิร์ฟเวอร์ดัชนีจะมีดัชนีที่รวมคำศัพท์เฉพาะทั้งหมด และสำหรับแต่ละเงื่อนไขเหล่านี้ เป็นส่วนหนึ่งของรายการโพสต์ ระบบการจัดทำดัชนีทั่วไปเช่นนี้อาจมีเซิร์ฟเวอร์ดัชนีมากกว่า 1,000 รายการในข้อตกลงนี้

เมื่อมีการประมวลผลการสืบค้นที่มีเงื่อนไขจำนวนหนึ่งในระบบการจัดทำดัชนีดังกล่าว จำเป็นต้องเข้าถึงเซิร์ฟเวอร์ดัชนีทั้งหมดสำหรับการสืบค้นแต่ละครั้ง ดังนั้น แม้แต่การสืบค้นแบบคำเดียวธรรมดาก็ต้องการเซิร์ฟเวอร์ดัชนีแต่ละตัว (เช่น 1,000 เซิร์ฟเวอร์) เพื่อตรวจสอบว่ามีเอกสารที่มีคำนั้นอยู่หรือไม่ เนื่องจากเซิร์ฟเวอร์ดัชนีทั้งหมดต้องประมวลผลการสืบค้น เวลาในการประมวลผลแบบสอบถามโดยรวมของเซิร์ฟเวอร์ดัชนีที่ช้าที่สุดจึงมีจำกัด

เหล่านี้คือปัญหาที่เกิดขึ้นเมื่อมีการพัฒนาแนวคิดของการจัดทำดัชนีแบบวลี อย่างไรก็ตาม หากปัญหาเหล่านั้นสามารถแก้ไขได้ ก็อาจมีประโยชน์ในการใช้การจัดทำดัชนีแบบวลี สิทธิบัตรนี้อธิบายวิธีตั้งค่าเซิร์ฟเวอร์เพื่อจัดทำดัชนีและค้นหาเว็บตามวลี

ประโยชน์? ลองนึกภาพหน้าเกี่ยวกับ “สนามเบสบอล” มีโอกาสดีที่จะรวมวลีเช่น "เหยือก" "ฐานสัมปทาน" และ "ฐานแรก" วลีเหล่านี้สามารถระบุได้ว่าเกี่ยวข้องกับหน้านั้นเกี่ยวกับสนามเบสบอล วลีเหล่านี้มักจะเกิดขึ้นพร้อมกันในหน้าการจัดอันดับสูงเกี่ยวกับสนามเบสบอล สิทธิบัตรอาจให้คะแนนวลีดังกล่าวตามที่อธิบายไว้ที่นี่:

ในด้านหนึ่ง ระบบดึงข้อมูลรวมถึงระบบการทำดัชนีและสถาปัตยกรรมเซิร์ฟเวอร์ดัชนีตามวลี วลีต่างๆ ถูกดึงมาจากคอลเล็กชันเอกสารเพื่อระบุวลีจริงที่ผู้ใช้ใช้ในภาษา แทนที่จะใช้คำผสมกันเพียงอย่างเดียว โดยทั่วไป ทำได้โดยการรวบรวมลำดับคำจำนวนมากที่เป็นวลีของผู้สมัครตามลักษณะโครงสร้างในเอกสาร แต่ละวลีของผู้สมัครจะได้รับคะแนนวลีของเอกสารสำหรับเอกสารแต่ละฉบับที่ปรากฏในลักษณะที่สะท้อนถึงความเป็นไปได้ที่จะเป็นวลีจริงตามตำแหน่งภายในเอกสารและขอบเขตที่เกิดขึ้นอย่างอิสระหรือร่วมกับวลีของผู้สมัครอื่น ๆ ในเอกสาร นอกจากนี้ แต่ละวลีของผู้สมัครจะได้รับการประมวลผลเพื่อระบุวลีย่อยในนั้น ซึ่งมีคะแนนใกล้เคียงกัน

คะแนนวลีของเอกสารของผู้สมัครแต่ละรายจะถูกรวมในเอกสารที่ดูเหมือนว่าจะสร้างคะแนนรวม คะแนนวลีของเอกสารและคะแนนรวมสำหรับวลีตัวเลือกจะได้รับการประเมินเพื่อกำหนดว่าคอลเลกชันเอกสารสนับสนุนการใช้วลีตัวเลือกในวลีจริงมากเพียงใด โดยทั่วไป วลีของผู้สมัครจะถูกเก็บไว้โดยได้รับการสนับสนุนอย่างมากจากเอกสารอย่างน้อยหนึ่งฉบับ ตัวอย่างเช่น คะแนนสูงสุดของวลีในเอกสารเกินเกณฑ์ที่กำหนดไว้ วลีของผู้สมัครจะยังคงอยู่ในตำแหน่งที่ได้รับการสนับสนุนในระดับปานกลางตามที่ระบุโดยมีคะแนนวลีรวมอยู่เหนือเกณฑ์ที่สองที่กำหนดไว้ล่วงหน้า นี่แสดงให้เห็นว่าวลีของผู้สมัครมีการใช้งานอย่างแพร่หลายเพียงพอที่จะถือว่าเป็นวลีจริง สุดท้าย วลีของผู้สมัครจะยังคงอยู่ในที่ซึ่งสนับสนุนอย่างกว้าง ๆ ตามที่ระบุโดยวลีที่ได้รับคะแนนขั้นต่ำจากเอกสารจำนวนหนึ่ง ตัวอย่างเช่น ระบบสามารถรวมวลีได้ประมาณ 100,000 ถึง 200,000 วลี ซึ่งจะแสดงวลีจริงที่ใช้ในเอกสาร แทนที่จะเป็นเพียงการผสมคำ

ซื้อกลับบ้าน

การใช้วิธีการเช่นนี้เพื่อระบุวลีจริง ความถี่ที่เกิดขึ้น และตำแหน่งในเอกสารนั้นซับซ้อน ระบบการจัดทำดัชนีแบบวลีนี้ครอบคลุมสิทธิบัตรที่แตกต่างกันสองสามฉบับ รวมถึงการให้คะแนนโดยพิจารณาจากความถี่ที่วลีบางคำปรากฏในเอกสารต่างๆ และข้อความ Anchor ที่ชี้ไปยังเอกสารและการระบุสแปมโดยใช้การจัดทำดัชนีแบบวลี มีสิทธิบัตรที่เกี่ยวข้องจำนวนมากที่ได้รับการพัฒนามาตั้งแต่ปี 2547 ซึ่งซับซ้อนจนไม่ต้องพูดถึงมาก ได้ คุณสามารถค้นหาวลีที่มักจะปรากฏในหน้าที่มีอันดับสูงสุดสำหรับคำบางคำได้บ่อยๆ และนั่นจะให้คำแนะนำแก่คุณว่าวลีที่มีความหมายที่คุณควรรวมไว้ในหน้าของคุณเกี่ยวกับคำเหล่านั้นเป็นอย่างไร

ฉันเขียนเกี่ยวกับดัชนีฤvertedษีของ Google และกล่าวถึงโพสต์นี้เนื่องจากสิทธิบัตรที่ฉันเขียนมีดัชนีของวลีที่กลับด้านบนเว็บ ซึ่งแสดงให้เห็นว่า Google มีแนวโน้มว่าจะติดตามวลีเหล่านั้น