การจัดทำดัชนีความหมายแฝงคืออะไร? 7 สิ่งที่คุณต้องรู้

เผยแพร่แล้ว: 2020-03-13

สงสัยว่าการจัดทำดัชนีความหมายแฝงคืออะไร?

มี ความสับสน มากมายเกี่ยวกับ LSI และแม้กระทั่งการโต้เถียง ในบทความนี้ ฉันจะอธิบายว่ามันคืออะไร เครื่องมือค้นหาใช้งานอย่างไร และคุณสามารถใช้เพื่อ จัดอันดับ ให้ สูงขึ้น ในผลการค้นหาได้อย่างไร

แต่แรก…

what is latent semantic indexing
สารบัญ
1. การจัดทำดัชนีความหมายแฝงคืออะไร?
2. การวิเคราะห์คำหลักและการจัดทำดัชนีความหมายแฝง
3. การจัดทำดัชนีความหมายแฝงและอำนาจเฉพาะที่
4. การจัดทำดัชนีความหมายแฝงและอำนาจเฉพาะที่
ผู้มีอำนาจเฉพาะที่มีอำนาจเหนืออำนาจโดเมน
เว็บไซต์ยังมีอำนาจเฉพาะ
5. การจัดทำดัชนีความหมายแฝงและการวิเคราะห์เวกเตอร์
6. Google ใช้การจัดทำดัชนีความหมายแฝงหรือไม่
การจัดทำดัชนีความหมายแฝงเป็น 'เทคโนโลยีเก่า'
คำขอรับสิทธิบัตรปี 2552 ของ Google
7. LSI สามารถช่วยให้คุณมีอันดับที่ดีขึ้นใน Google ได้อย่างไร?
Google: ไม่มีสิ่งที่เรียกว่าคีย์เวิร์ด LSI
บทสรุป
บทความที่เกี่ยวข้อง

1. การจัดทำดัชนีความหมายแฝงคืออะไร?

แล้วการจัดทำดัชนีความหมายแฝงคืออะไรกันแน่?

การจัดทำดัชนีความหมายแฝงเป็นวิธีการทางคณิตศาสตร์สำหรับ การค้นหารูปแบบ ในลักษณะที่คำรวมกลุ่มกันในเนื้อหาออนไลน์ ข้อมูลนั้นจะถูกจัดทำดัชนีเพื่อให้สามารถใช้เพื่อตอบคำถาม

พูดอีกอย่างหนึ่งก็คือ การจัดทำดัชนีความหมายแฝงจะศึกษาการเกิดขึ้นร่วมของคำ การทำเช่นนี้จะพบ ความสัมพันธ์ที่ซ่อนเร้น (แฝง) ระหว่างคำต่างๆ ซึ่งจะทำให้เข้าใจความหมาย (ความหมาย)

การจัดทำดัชนีความหมายแฝงเป็นก้าวสำคัญสำหรับเขตข้อมูลความเข้าใจข้อความ เนื่องจากคำนึงถึงข้อเท็จจริงที่ว่าความหมายของคำเปลี่ยนแปลงไปตามบริบท

นี่คือตัวอย่างบางส่วน:

  • แขนง อที่ข้อศอก
  • เยอรมนีขาย อาวุธ ให้ซาอุดีอาระเบีย
  • หา วิธีแก้ปัญหา ในหัวของคุณ
  • อุ่น สารละลาย ที่อุณหภูมิ 75 องศาเซลเซียส
  • กุญแจ แตกในล็อค
  • ปัญหา สำคัญ ไม่ได้อยู่ที่คุณภาพ แต่เป็นปริมาณ

หัวใจสำคัญของการจัดทำดัชนีความหมายแฝงคือทฤษฎีที่เรียกว่า สมมติฐานการกระจาย ตามทฤษฎีนี้ คำที่เกิดขึ้นใน บริบทเดียวกัน มักจะมีความหมายคล้ายกัน นักภาษาศาสตร์คนหนึ่งกล่าวไว้ว่า: "คุณจะรู้จักคำของบริษัทที่มันเก็บไว้"

กล่าวโดยย่อ คำที่มีบริบทคล้ายคลึงกันมักจะมีความหมายคล้ายกัน

“คุณจะรู้คำศัพท์โดยบริษัทที่มันเก็บไว้”


เจอาร์ เฟิร์ธ 2500

2. การวิเคราะห์คำหลักและการจัดทำดัชนีความหมายแฝง

แล้วมันเกี่ยวข้องกับเสิร์ชเอ็นจิ้นอย่างไร?

ในช่วงปลายทศวรรษ 1990 เมื่อเสิร์ชเอ็นจิ้นแรกปรากฏขึ้น ความหนาแน่นของคำหลัก เป็นตัวชี้วัดความเกี่ยวข้องเพียงอย่างเดียวที่มี ยิ่งคำหลักปรากฏในเนื้อหามากเท่าใด ก็ยิ่งมีความเกี่ยวข้องกับคำค้นหามากขึ้นเท่านั้น

แน่นอน ความหนาแน่นของคำหลักไม่เข้าใจบริบท และยังง่ายต่อการจัดการ เว็บไซต์จะมีอันดับสูงในผลการค้นหาโดยการบรรจุเนื้อหาด้วยคำหลักที่กำหนด

แต่เมื่อการจัดทำดัชนีความหมายแฝงปรากฏขึ้นในที่เกิดเหตุ การบรรจุคำหลักก็ไม่มีผลอีกต่อไป

ทำไม?

เนื่องจากการทำดัชนีเชิงความหมายแฝง เครื่องมือค้นหาไม่ได้มองหาคำหลักเพียงคำเดียว แต่กำลัง มองหารูปแบบของคำหลัก

กล่าวอีกนัยหนึ่งคือ เสิร์ชเอ็นจิ้นกำลังเปลี่ยนจากการวิเคราะห์คำหลักไปสู่อำนาจเฉพาะ ด้าน

3. การจัดทำดัชนีความหมายแฝงและอำนาจเฉพาะที่

ด้วยการระบุรูปแบบในการรวมกลุ่มคำในเนื้อหาออนไลน์ การจัดทำดัชนีความหมายแฝงสามารถระบุกลุ่มคำที่ประกอบเป็นหัวข้อและหัวข้อย่อยได้

ผลที่ตามมา ไม่ว่าคุณจะเขียนหัวข้อใด เครื่องมือค้นหาจะรู้ว่ากลุ่มคำใดที่เกี่ยวข้องกับหัวข้อนั้น หรือหัวข้อย่อย และนั่นหมายความว่าเสิร์ชเอ็นจิ้นสามารถวัดอำนาจเฉพาะของชิ้นเนื้อหาได้

ในสมัยก่อน (ปี 1990 ถึง ~ 2005) คุณสามารถจัดอันดับในผลการค้นหาโดยเน้นคำหลักหนึ่งคำ

แต่เพื่อที่จะจัดอันดับในตอนนี้ คุณต้องแสดงให้เห็นว่าเนื้อหาของคุณมีอำนาจเฉพาะด้าน และนั่นหมายถึงการใช้กลุ่มคำทั้งหมดที่ระบุไว้ในหัวข้อของคุณผ่านการจัดทำดัชนีความหมายแฝง

4. การจัดทำดัชนีความหมายแฝงและอำนาจเฉพาะที่

ผู้มีอำนาจเฉพาะที่มีอำนาจเหนืออำนาจโดเมน

ผู้มีอำนาจเฉพาะที่เป็นปัจจัยสำคัญในการจัดอันดับสำหรับเครื่องมือค้นหา ตัวอย่างเช่น ใน Google คุณสามารถแซงหน้าเว็บไซต์ที่มีอำนาจโดเมนที่สูงกว่าได้มาก (เช่น เว็บไซต์ที่มีโปรไฟล์ลิงก์ที่แข็งแกร่งกว่ามาก) โดยการสร้างเนื้อหาที่มีอำนาจเฉพาะด้านที่สูงมาก

เมื่อผู้มีอำนาจโดเมนของฉันอายุเพียง 24 ปี ฉันเคยครองตำแหน่งเว็บไซต์ที่มี DA อย่างสม่ำเสมอในช่วงทศวรรษที่ 80 และ 90 โดยการสร้างเนื้อหาที่มีอำนาจเฉพาะเรื่องสูง

เว็บไซต์ยังมีอำนาจเฉพาะ

จนถึงตอนนี้ ฉันกำลังพูดถึงอำนาจเฉพาะที่เกี่ยวข้องกับหน้าเว็บเดียวหรือบล็อกโพสต์เดียว

แต่เว็บไซต์เองก็มีอำนาจเฉพาะ และเสิร์ชเอ็นจิ้นอย่าง Google ก็จะมีความคิดที่ดีอยู่แล้วว่าอำนาจเฉพาะด้านของเว็บไซต์ของคุณคืออะไร

ตัวอย่างเช่น หากสิ่งที่คุณเขียนเกี่ยวกับดนตรีแจ๊สในช่วงทศวรรษที่ 1930 เว็บไซต์ของคุณจะมีอำนาจเฉพาะหัวข้อที่สูงมาก เมื่อคุณเผยแพร่บทความในหัวข้อนั้น หน้าเว็บของคุณจะอยู่ในอันดับที่สูงมาก มีแนวโน้มว่าคุณจะแซงหน้าเว็บไซต์ที่มีอำนาจโดเมนสูงกว่า

แต่ถ้าเว็บไซต์ของคุณครอบคลุมดนตรีแจ๊สทุกแนวและทุกยุคสมัยที่เคยมีมา หน้าเว็บของคุณในยุค 1930 แจ๊สก็อาจจะไม่ติดอันดับสูงเท่ากับบทความของเว็บไซต์อื่น

5. การจัดทำดัชนีความหมายแฝงและการวิเคราะห์เวกเตอร์

เราได้พูดคุยกันมากมายเกี่ยวกับการจัดทำดัชนีความหมายแฝง แต่ไม่ใช่เครื่องมือเดียวที่คอมพิวเตอร์ใช้เพื่อพยายามทำความเข้าใจความหมายของคำ

ยังมีสิ่งที่เรียกว่าการวิเคราะห์เวกเตอร์อีกด้วย

แล้วการวิเคราะห์เวกเตอร์เมื่อใช้กับคำคืออะไร?

เวกเตอร์คำคือแถวของค่าทางคณิตศาสตร์ที่เกี่ยวข้องกับคำเดียว แต่ละค่าในแถวจะบันทึกมิติของความหมายของคำ

นี่คือตัวอย่าง:

latent semantic indexing

(แหล่งที่มา)

ตัวเลขแต่ละตัวในแถวพยายามสรุปความหมายของคำตามเวกเตอร์ที่แตกต่างกันสี่ตัว (สัตว์ สัตว์ในบ้าน สัตว์เลี้ยง ขนนุ่ม)

ความแตกต่างระหว่างการจัดทำดัชนีความหมายแฝงและเวกเตอร์ของคำคือ LSI เป็นรูปแบบการนับ – เพียงแค่นับจำนวนคำที่เกิดขึ้นในบริบทหนึ่งๆ แต่เวกเตอร์คำเป็นรูปแบบการทำนาย – พวกเขาพยายามทำนายความหมายของคำ โดยอิงจากการวิเคราะห์เวกเตอร์

ตัวอย่างเช่น ผ่านการวิเคราะห์เวกเตอร์ อัลกอริธึมของ Google “เข้าใจว่าปารีสและฝรั่งเศสมีความเกี่ยวข้องกันแบบเดียวกับเบอร์ลินและเยอรมนี (เมืองหลวงและประเทศ) และไม่เหมือนมาดริดและอิตาลี”

6. Google ใช้การจัดทำดัชนีความหมายแฝงหรือไม่

นี่คือจุดเริ่มต้นของความขัดแย้ง...

การจัดทำดัชนีความหมายแฝงเป็น 'เทคโนโลยีเก่า'

เมื่อเร็ว ๆ นี้มีบทความจำนวนหนึ่งปรากฏขึ้นทางออนไลน์โดยอ้างว่า Google ไม่ได้ใช้การจัดทำดัชนีความหมายแฝง บางคนไปไกลกว่านั้นและอ้างว่าการทำความเข้าใจว่า LSI ทำงานอย่างไรจะไม่ช่วย SEO ของคุณ

แน่นอน ไม่มีใครนอก Google รู้แน่ชัดว่าอัลกอริทึมของ Google ทำอะไร

แต่ลองดูโอกาส (หรืออย่างอื่น) ที่ Google ใช้การจัดทำดัชนีความหมายแฝง

บางคนแย้งว่าเนื่องจาก LSI ได้รับการพัฒนาในช่วงปี 1980 จึงเป็น 'เทคโนโลยีเก่า' ดังนั้นจึงไม่น่าเป็นไปได้ที่ Google จะใช้ LSI ในอัลกอริทึม

มี ปัญหา กับอาร์กิวเมนต์นี้

วันที่ที่ LSI ถูกค้นพบไม่เกี่ยวข้องกับว่า Google ใช้งาน LSI ในปัจจุบันหรือไม่

อันที่จริง วันที่เทคโนโลยีใด ๆ ถูกค้นพบ นั้นไม่มีผล ต่อการที่เรายังคงใช้เทคโนโลยีนี้จนถึงทุกวันนี้

Wilhelm Conrad Roentgen, discoverer of X rays

วิลเฮล์ม คอนราด เรินต์เกน ผู้ค้นพบรังสีเอกซ์

(แหล่งที่มา)

ตัวอย่างเช่น รังสีเอกซ์ถูกค้นพบในปี 1895 (โดย Wilhelm Conrad Roentgen ศาสตราจารย์แห่งมหาวิทยาลัย Wuerzburg ในเยอรมนี) พูดอย่างเคร่งครัดพวกเขาเป็น 'เทคโนโลยีเก่า'

แต่คงเป็น เรื่องไร้สาระ สำหรับโรงพยาบาลที่จะพูดว่า: "เพราะรังสีเอกซ์ใช้เทคโนโลยีเก่า เราจะไม่ใช้มันอีกต่อไป"

นี่เป็นอีกตัวอย่างหนึ่ง ใกล้บ้าน

what is latent semantic indexing

ก็อทฟรีด วิลเฮล์ม ไลบ์นิซ ผู้ประดิษฐ์ระบบเลขฐานสอง

(แหล่งที่มา)

คอมพิวเตอร์ใช้ระบบเลขฐานสอง โดยข้อมูลทั้งหมดจะลดลงเหลือ '0' หรือ '1'

ระบบเลขฐานสองถูกคิดค้นโดย Gottfried Wilhelm Leibniz ผู้ตีพิมพ์สิ่งประดิษฐ์ของเขาในบทความ 1701 เรื่อง: 'Essay d'une nouvelle science des nombres'

ดังนั้นคุณจึงสามารถยืนยันว่าเครื่องคอมพิวเตอร์ที่ทันสมัยอยู่บนพื้นฐานของ 18 ศตวรรษประดิษฐ์

The Turing machine, forerunner of the modern computer

เครื่องจักรทัวริง บรรพบุรุษของคอมพิวเตอร์สมัยใหม่

(แหล่งที่มา)

บางคนโต้แย้งว่า ต้นกำเนิดที่ ใหม่กว่า พวกเขาตามรอยคอมพิวเตอร์สมัยใหม่ไปยังสิ่งประดิษฐ์ของอลัน ทัวริงในปี 1936 เกี่ยวกับ 'เครื่องจักรอเนกประสงค์' (ปัจจุบันเรียกว่าเครื่องจักรทัวริง)

ไม่ว่าจะด้วยวิธีใด คอมพิวเตอร์มีพื้นฐานมาจาก 'เทคโนโลยีเก่า' (1701 หรือ 1936 ขึ้นอยู่กับมุมมองของคุณ)

ดังนั้นความจริงที่ว่า LSI ถูกค้นพบในปี 1980 ไม่ได้อยู่ที่นี่หรือที่นั่น ไม่ได้หมายความว่า LSI จะไม่เกี่ยวข้องหรือมีประโยชน์อีกต่อไป

คำขอรับสิทธิบัตรปี 2552 ของ Google

อย่างที่ฉันพูดไป Google ไม่ค่อยเข้าใจวิธีการทำงานของอัลกอริทึมมากนัก

แต่ในเดือนมีนาคม 2009 Google ได้ยื่นขอสิทธิบัตรในสหรัฐอเมริกา (US 8,145,636 B1) คำขอรับสิทธิบัตรมีชื่อว่า "การจำแนกข้อความเป็นหมวดหมู่ตามลำดับชั้น"

Google patent application, 2009

แอปพลิเคชันมีย่อหน้านี้:

“เทคนิคการจำแนกข้อความสามารถใช้เพื่อจัดประเภทข้อความเป็นหมวดหมู่หัวข้อได้ตั้งแต่หนึ่งหมวดหมู่ขึ้นไป การจัดประเภท/การจัดหมวดหมู่ข้อความเป็นพื้นที่การวิจัยในวิทยาการสารสนเทศที่เกี่ยวข้องกับการกำหนดข้อความให้กับหมวดหมู่หนึ่งหรือหลายหมวดหมู่ตามเนื้อหา เทคนิคการจำแนกข้อความโดยทั่วไปจะขึ้นอยู่กับตัวแยกประเภท Bayes ที่ไร้เดียงสา, tf-idf, ความหมายแฝง การจัดทำดัชนี สนับสนุนเครื่องเวกเตอร์และโครงข่ายประสาทเทียมเป็นต้น”

Google patent application, 2009

Google ใช้การจัดทำดัชนีความหมายแฝงหรือไม่

เราไม่ทราบแน่ชัด

แต่มันคงไม่ธรรมดาถ้าไม่เป็นเช่นนั้น (และคงไม่ใช่เพราะ LSI เป็น 'เทคโนโลยีเก่า')

7. LSI สามารถช่วยให้คุณมีอันดับที่ดีขึ้นใน Google ได้อย่างไร?

มีหลายวิธีที่ LSI สามารถช่วยให้คุณมีอันดับสูงขึ้นใน Google ที่สำคัญที่สุดคือต้องตระหนักว่า Google มุ่งเน้นที่หัวข้อ ไม่ใช่คำหลัก

ดังที่ฉันได้กล่าวไว้ข้างต้น Google สามารถแมปหัวข้อทั้งหมดและหัวข้อย่อยที่ประกอบขึ้นเป็นหัวข้อเหล่านั้นได้โดยใช้การจัดทำดัชนีความหมายแฝงโดยอาศัยการจัดทำดัชนีความหมายแฝง ในทางกลับกัน หมายความว่าอัลกอริทึมสามารถวัดว่าเนื้อหาชิ้นส่วนครอบคลุมหัวข้อเฉพาะได้ดีเพียงใด

กล่าวอีกนัยหนึ่ง Google สามารถวัดอำนาจเฉพาะของชิ้นเนื้อหาของคุณได้

ต่อไปนี้คือวิธีการบางอย่างเพื่อให้แน่ใจว่าเนื้อหาของคุณมีอำนาจเฉพาะหัวข้อสูง:

ทำการวิเคราะห์หัวข้อบางอย่าง ดูผลการค้นหาห้าอันดับแรกสำหรับคำสำคัญที่คุณมุ่งเน้น และจดหัวข้อและหัวข้อย่อยที่หน้าเว็บเหล่านั้นครอบคลุม พยายามให้แน่ใจว่าเนื้อหาของคุณครอบคลุมหัวข้อและหัวข้อย่อยเหล่านั้นมากกว่าเนื้อหาอื่น ๆ

สร้างคลัสเตอร์หัวข้อ เขียนบทความหลักที่ครอบคลุมหัวข้อโดยละเอียด แล้วเขียนบทความเกี่ยวกับ 'ดาวเทียม' ที่ครอบคลุมหัวข้อย่อยอย่างละเอียดมากขึ้น

ตัวอย่างเช่น คุณสามารถเขียนบทความหลักเกี่ยวกับเครื่องบินรบของอังกฤษในสงครามโลกครั้งที่สอง จากนั้นคุณสามารถเขียนบทความดาวเทียมเกี่ยวกับ Spitfires บทความเกี่ยวกับ Hurricanes อีกบทความเกี่ยวกับ Gloster Gladiators และอื่นๆ

บทความดาวเทียมบนเครื่องบินรบแต่ละลำจะสร้างอำนาจเฉพาะของบทความหลักของคุณ

ใช้การแนะนำอัตโนมัติของ Google เริ่มพิมพ์คีย์เวิร์ด focus ของคุณลงใน Google และสังเกตรูปแบบหางยาวที่ Google คิดขึ้นมา เหล่านี้เป็นหัวข้อย่อยทั้งหมดที่อยู่ในหัวข้อหลักของคุณ พยายามรวมหัวข้อย่อยเหล่านั้นเป็นหัวข้อในบทความของคุณ

ทำเช่นเดียวกันกับ 'ผู้คนยังถาม' ของ Google (ปกติแล้วหนึ่งในสามของหน้าผลการค้นหา) และ 'การค้นหาที่เกี่ยวข้อง' ของ Google (ที่ส่วนท้ายของหน้าผลลัพธ์) สิ่งเหล่านี้เป็นหัวข้อหรือหัวข้อย่อยที่เกี่ยวข้องทั้งหมด รวมไว้ใต้หัวข้อตามด้วยย่อหน้าสองสามย่อหน้า และคุณจะเพิ่มอำนาจเฉพาะหัวข้อของบทความของคุณ

Google: ไม่มีสิ่งที่เรียกว่าคีย์เวิร์ด LSI

ฉันไม่สามารถจบบทความนี้โดยไม่ได้พูดถึงทวีตนั้นโดย John Mueller ในเดือนกรกฎาคม 2019

นี่คือ:

จะทำอย่างไรกับสิ่งนี้?

อย่างแรกเลย เขาไม่ได้บอกว่า Google ไม่ได้ใช้การจัดทำดัชนีความหมายแฝง และประการที่สอง เขาอาจเพียงแต่คัดค้านคำศัพท์ 'คำหลักที่มีความหมายแฝง'

แต่มีกลุ่มของคำที่เกี่ยวข้องซึ่ง รวมกลุ่มกันในรูปแบบที่คาดเดาได้ สำหรับหัวข้อที่คุณกำลังเขียนถึงหรือไม่ และ Google ใช้กลุ่มคำเหล่านั้นเพื่อระบุหัวข้อหรือไม่

ฉันยินดีเดิมพัน!

บทสรุป

การจัดทำดัชนีความหมายแฝงเป็นวิธีทางคณิตศาสตร์สำหรับการทำความเข้าใจความหมายของคำโดยการศึกษารูปแบบในลักษณะที่คำจัดกลุ่มเข้าด้วยกันในเนื้อหาข้อความ

แม้ว่าจะไม่มีหลักฐานที่แน่ชัดว่าเสิร์ชเอ็นจิ้นใช้ แต่ดูเหมือนว่ามีแนวโน้มมากกว่าที่พวกเขาจะทำ เครื่องมือค้นหาเช่น Google อาจใช้การจัดทำดัชนีความหมายแฝงเพื่อทำความเข้าใจบริบทและจัดทำแผนที่หัวข้อและหัวข้อย่อย

ผู้มีอำนาจเฉพาะจะแทนที่ความหนาแน่นของคำหลักเป็นปัจจัยในการจัดอันดับ ความเข้าใจเกี่ยวกับการจัดทำดัชนีความหมายแฝงจะช่วยคุณสร้างอำนาจเฉพาะสำหรับบทความและเว็บไซต์ของคุณ และอันดับที่สูงขึ้นในผลการค้นหา

บทความที่เกี่ยวข้อง

  • คำหลัก LSI คืออะไร (วิธีง่ายๆ ในการเพิ่ม SEO ของคุณ)
  • กลุ่มหัวข้อคืออะไรและเหตุใดจึงจะช่วยส่งเสริม SEO ของคุณ
  • วิธีสร้างโครงสร้างไซโลบนเว็บไซต์ของคุณ (คู่มือพร้อมภาพประกอบ)