ما هي الفهرسة الدلالية الكامنة؟ 7 أشياء تحتاج إلى معرفتها

نشرت: 2020-03-13

أتساءل ما هي الفهرسة الدلالية الكامنة؟

هناك الكثير من الالتباس حول إل. إس. آي. LSI. وحتى الجدل. في هذا المقال ، أشرح ما هو ، وكيف تستخدمه محركات البحث ، وكيف يمكنك استخدامه لترتيب أعلى في نتائج البحث.

لكن اولا…

what is latent semantic indexing
جدول المحتويات
1. ما هي الفهرسة الدلالية الكامنة؟
2. تحليل الكلمات الرئيسية مقابل الفهرسة الدلالية الكامنة
3. الفهرسة الدلالية الكامنة والسلطة الموضوعية
4. الفهرسة الدلالية الكامنة والسلطة الموضوعية
السلطة الموضعية تتفوق على سلطة المجال
مواقع الويب لها أيضًا سلطة موضوعية
5. الفهرسة الدلالية الكامنة وتحليل المتجهات
6. هل تستخدم Google الفهرسة الدلالية الكامنة؟
الفهرسة الدلالية الكامنة كـ "تقنية قديمة"
تطبيق براءات الاختراع لعام 2009 من Google
7. كيف يمكن أن يساعدك LSI في الحصول على مرتبة أفضل في Google؟
Google: لا يوجد شيء مثل كلمات LSI
استنتاج
مقالات ذات صلة

1. ما هي الفهرسة الدلالية الكامنة؟

إذن ما هو بالضبط الفهرسة الدلالية الكامنة؟

الفهرسة الدلالية الكامنة هي طريقة رياضية للعثور على الأنماط بالطريقة التي تتجمع بها الكلمات معًا في المحتوى عبر الإنترنت. ثم يتم فهرسة هذه المعلومات بحيث يمكن استخدامها للإجابة على الاستفسارات.

بعبارة أخرى ، تدرس الفهرسة الدلالية الكامنة التواجد المشترك للكلمات. من خلال القيام بذلك ، يجد العلاقات المخفية (الكامنة) بين الكلمات والتي بدورها تسمح لها بفهم المعنى (الدلالات).

كانت الفهرسة الدلالية الكامنة خطوة كبيرة إلى الأمام في مجال فهم النص لأنها تأخذ في الاعتبار حقيقة أن معنى الكلمات يتغير اعتمادًا على السياق.

وهنا بعض الأمثلة:

  • تنحني الذراعين عند الكوع.
  • ألمانيا تبيع أسلحة للسعودية.
  • ضع الحل في رأسك.
  • تسخين المحلول إلى 75 درجة مئوية.
  • المفتاح كسر في القفل.
  • لم تكن المشكلة الرئيسية مشكلة الجودة بل مشكلة الكمية.

في قلب الفهرسة الدلالية الكامنة توجد نظرية تسمى فرضية التوزيع . وفقًا لهذه النظرية ، تميل الكلمات التي تحدث في نفس السياق إلى أن يكون لها معانٍ متشابهة. على حد تعبير أحد اللغويين: "ستعرف كلمة من الشركة التي تحتفظ بها".

باختصار ، تميل الكلمات التي تشترك في سياقات متشابهة إلى أن يكون لها معاني متشابهة.

"يجب أن تعرف كلمة من الشركة التي تحتفظ بها."


جي آر فيرث ، 1957

2. تحليل الكلمات الرئيسية مقابل الفهرسة الدلالية الكامنة

فكيف يرتبط هذا بمحركات البحث؟

في أواخر التسعينيات ، عندما ظهرت محركات البحث الأولى ، كانت كثافة الكلمات الرئيسية هي المقياس الوحيد للأهمية المتاح. كلما ظهرت كلمة رئيسية في جزء من المحتوى ، كلما كانت أكثر صلة باستعلام البحث.

بالطبع ، فشلت كثافة الكلمات الرئيسية في فهم السياق. وكان من السهل أيضًا التلاعب بها. ستحتل مواقع الويب مرتبة عالية في نتائج البحث عن طريق حشو محتواها بكلمة رئيسية معينة.

ولكن عندما ظهرت الفهرسة الدلالية الكامنة على الساحة ، لم يعد حشو الكلمات الرئيسية فعالاً.

لماذا ا؟

لأنه مع الفهرسة الدلالية الكامنة ، لا تبحث محركات البحث عن كلمة رئيسية واحدة - إنها تبحث عن أنماط الكلمات الرئيسية .

بعبارة أخرى: تتحرك محركات البحث بعيدًا عن تحليل الكلمات الرئيسية نحو السلطة الموضوعية .

3. الفهرسة الدلالية الكامنة والسلطة الموضوعية

من خلال تحديد الأنماط بالطريقة التي تتجمع بها الكلمات معًا في المحتوى عبر الإنترنت ، تكون الفهرسة الدلالية الكامنة قادرة على تحديد مجموعات الكلمات التي تشكل الموضوعات والموضوعات الفرعية.

في الواقع ، مهما كان الموضوع الذي تكتب عنه ، فإن محركات البحث تعرف مجموعة الكلمات المرتبطة بهذا الموضوع أو الموضوع الفرعي . وهذا يعني أن محركات البحث يمكنها قياس السلطة الموضوعية لجزء من المحتوى.

في الأيام الخوالي (من التسعينيات إلى 2005) ، كان بإمكانك الترتيب في نتائج البحث من خلال التأكيد على كلمة رئيسية واحدة.

ولكن من أجل الترتيب الآن ، يجب أن تُظهر أن المحتوى الخاص بك له سلطة موضوعية. وهذا يعني استخدام مجموعة كاملة من الكلمات التي تم تحديدها مع موضوعك من خلال الفهرسة الدلالية الكامنة.

4. الفهرسة الدلالية الكامنة والسلطة الموضوعية

السلطة الموضعية تتفوق على سلطة المجال

أصبحت السلطة الموضوعية عامل ترتيب رئيسي لمحركات البحث. على Google ، على سبيل المثال ، يمكنك الحصول على مرتبة أعلى من مواقع الويب التي تتمتع بسلطة مجال أعلى بكثير (أي مواقع الويب التي تتمتع بملف تعريف ارتباط أقوى بكثير) من خلال إنشاء محتوى يتمتع بسلطة موضوعية عالية جدًا.

عندما كان نطاقي يبلغ من العمر 24 عامًا فقط ، كنت أتفوق بانتظام على مواقع الويب التي تحتوي على DA في الثمانينيات والتسعينيات من القرن الماضي ببساطة عن طريق إنشاء محتوى يتمتع بسلطة موضوعية عالية.

مواقع الويب لها أيضًا سلطة موضوعية

حتى الآن ، كنت أتحدث عن السلطة الموضوعية من حيث صلتها بصفحة ويب واحدة أو منشور مدونة واحد.

لكن موقع الويب نفسه له سلطة موضوعية. وستكون لدى محركات البحث مثل Google بالفعل فكرة جيدة جدًا عن السلطة الموضوعية لموقعك على الويب.

على سبيل المثال ، إذا كان كل ما تكتب عنه هو موسيقى الجاز في ثلاثينيات القرن العشرين ، فسيكون لموقعك على الويب سلطة موضوعية عالية جدًا في هذا الموضوع. عندما تنشر مقالات حول هذا الموضوع ، ستحتل صفحة الويب الخاصة بك مرتبة عالية جدًا. من المحتمل أنك ستفوق مواقع الويب التي تتمتع بسلطة مجال أعلى.

ولكن إذا كان موقع الويب الخاص بك يغطي كل نوع وعصر لموسيقى الجاز كان موجودًا على الإطلاق ، فمن المحتمل ألا تحتل صفحة الويب الخاصة بك على موسيقى الجاز في الثلاثينيات مرتبة عالية مثل مقالة موقع الويب الآخر.

5. الفهرسة الدلالية الكامنة وتحليل المتجهات

لقد تحدثنا كثيرًا عن الفهرسة الدلالية الكامنة. لكنها ليست الأداة الوحيدة التي تستخدمها أجهزة الكمبيوتر لمحاولة فهم معنى الكلمات.

هناك أيضًا شيء يسمى تحليل المتجهات.

إذن ما هو تحليل المتجه عند تطبيقه على الكلمات؟

متجه الكلمات هو صف من القيم الرياضية المرتبطة بكلمة واحدة. كل قيمة في الصف تلتقط بُعدًا لمعنى الكلمة.

هذا مثال:

latent semantic indexing

(مصدر)

يحاول كل رقم في الصف تغليف معنى الكلمة وفقًا لواحد من أربعة نواقل مختلفة (حيوان ، مستأنس ، حيوان أليف ، رقيق).

يتمثل الاختلاف بين الفهرسة الدلالية الكامنة ومتجهات الكلمات في أن LSI هو نموذج قائم على العد - فهو يحسب ببساطة عدد المرات التي تحدث فيها الكلمات في سياق معين. لكن متجهات الكلمات هي نموذج قائم على التنبؤ - فهي تحاول التنبؤ بمعنى الكلمة ، بناءً على تحليل المتجهات.

على سبيل المثال ، من خلال تحليل المتجهات ، فإن خوارزمية Google "تدرك أن باريس وفرنسا مرتبطان بنفس الطريقة التي ترتبط بها برلين وألمانيا (العاصمة والبلد) ، وليست مثل مدريد وإيطاليا"

6. هل تستخدم Google الفهرسة الدلالية الكامنة؟

من هنا يبدأ الجدل ...

الفهرسة الدلالية الكامنة كـ "تقنية قديمة"

في الآونة الأخيرة ، ظهر عدد من المقالات على الإنترنت تزعم أن Google لا تستخدم الفهرسة الدلالية الكامنة. يذهب بعضهم إلى أبعد من ذلك ويدعي أن فهم كيفية عمل LSI لن يساعد مُحسّنات محرّكات البحث لديك.

بالطبع ، لا أحد خارج Google يعرف بالضبط ما تفعله خوارزمية Google.

لكن دعونا نلقي نظرة على احتمال (أو خلاف ذلك) أن تستخدم Google الفهرسة الدلالية الكامنة.

جادل البعض بأنه نظرًا لأن LSI تم تطويرها في الثمانينيات ، فهي "تقنية قديمة" وبالتالي من غير المحتمل أن تستخدم Google LSI في خوارزميتها.

هناك مشكلة في هذه الحجة.

تاريخ اكتشاف LSI ليس ذا صلة بما إذا كانت Google تستخدمه اليوم أم لا.

في الواقع ، تاريخ اكتشاف أي تقنية ليس له أي تأثير على ما إذا كنا لا نزال نستخدمها اليوم.

Wilhelm Conrad Roentgen, discoverer of X rays

فيلهلم كونراد رونتجن ، مكتشف الأشعة السينية

(مصدر)

على سبيل المثال ، تم اكتشاف الأشعة السينية في عام 1895 (بواسطة Wilhelm Conrad Roentgen ، الأستاذ في جامعة Wuerzburg في ألمانيا). لذا ، بالمعنى الدقيق للكلمة ، فهي "تقنية قديمة".

ولكن سيكون من السخف أن تقول المستشفيات: "نظرًا لأن الأشعة السينية تعتمد على تقنية قديمة ، فلن نستخدمها بعد الآن".

هذا مثال آخر ، أقرب إلى المنزل.

what is latent semantic indexing

جوتفريد فيلهلم ليبنيز ، مخترع النظام الثنائي

(مصدر)

تعتمد أجهزة الكمبيوتر على نظام ثنائي ، حيث يتم تقليل جميع البيانات إلى "0" أو "1".

تم اختراع النظام الثنائي بواسطة جوتفريد فيلهلم ليبنيز ، الذي نشر اختراعه في ورقة بحثية عام 1701 بعنوان: Essay d'une nouvelle science des nombres.

لذلك يمكنك أن تجادل بأن أجهزة الكمبيوتر الحديثة تستند إلى اختراع يعود إلى القرن الثامن عشر.

The Turing machine, forerunner of the modern computer

آلة تورينج ، رائدة الكمبيوتر الحديث

(مصدر)

يجادل بعض الناس من أجل أصل أكثر حداثة . قاموا بتتبع الكمبيوتر الحديث إلى اختراع آلان تورينج عام 1936 لـ "الآلة العالمية" (تسمى الآن آلة تورينج).

في كلتا الحالتين ، تعتمد أجهزة الكمبيوتر على "التكنولوجيا القديمة" (1701 أو 1936 حسب وجهة نظرك).

لذا فإن حقيقة اكتشاف إل إس آي في الثمانينيات ليست هنا ولا هناك - فهذا لا يعني أن إل إس آي `` LSI '' لم يعد ذا صلة أو مفيدًا.

تطبيق براءات الاختراع لعام 2009 من Google

كما قلت ، فإن Google حريصة جدًا على كيفية عمل الخوارزميات.

ولكن في مارس 2009 ، تقدمت Google بطلب للحصول على براءة اختراع في الولايات المتحدة (الولايات المتحدة 8145.636 B1). كان طلب براءة الاختراع بعنوان "تصنيف النص إلى فئات هرمية".

Google patent application, 2009

التطبيق يحتوي على هذه الفقرة:

"يمكن استخدام تقنيات تصنيف النص لتصنيف النص إلى فئة موضوع واحد أو أكثر. تصنيف / تصنيف النص هو مجال بحث في علم المعلومات يهتم بتعيين نص إلى فئة واحدة أو أكثر بناءً على محتوياتها. تعتمد تقنيات تصنيف النص النموذجية على مصنفات بايز الساذجة ، tf-idf ، والدلالات الكامنة الفهرسة ودعم آلات النواقل والشبكات العصبية الاصطناعية ، على سبيل المثال ".

Google patent application, 2009

فهل تستخدم Google الفهرسة الدلالية الكامنة؟

لا نعرف على وجه اليقين.

ولكن سيكون الأمر غير عادي إذا لم يحدث ذلك (وبالتأكيد لن يكون ذلك لأن إل إس آي `` تقنية قديمة '').

7. كيف يمكن أن يساعدك LSI في الحصول على مرتبة أفضل في Google؟

هناك العديد من الطرق التي يمكن أن يساعدك بها إل إس آي `` LSI '' في الحصول على مرتبة أعلى في Google. الأهم هو ببساطة إدراك أن Google تركز على الموضوعات وليس الكلمات الرئيسية.

كما ذكرت أعلاه ، من خلال الفهرسة الدلالية الكامنة ، تستطيع Google تحديد الموضوعات بأكملها والمواضيع الفرعية التي تشكل تلك الموضوعات. وهذا بدوره يعني أن الخوارزمية يمكنها قياس مدى تغطية محتوى القطعة لموضوع معين.

بعبارة أخرى ، يمكن لـ Google قياس السلطة الموضوعية لمقطع المحتوى الخاص بك.

فيما يلي بعض الطرق للتأكد من أن المحتوى الخاص بك له سلطة موضوعية عالية:

قم ببعض تحليل الموضوع. انظر إلى أفضل خمس نتائج بحث للكلمة الرئيسية المركزة الخاصة بك وقم بتدوين الموضوعات والمواضيع الفرعية التي تغطيها صفحات الويب هذه. حاول التأكد من أن المحتوى الخاص بك يغطي المزيد من هذه الموضوعات والمواضيع الفرعية أكثر من أي جزء آخر من المحتوى

إنشاء مجموعات المواضيع. اكتب مقالة أساسية تغطي موضوعًا بتفصيل واسع. ثم اكتب مقالات "قمر صناعي" تغطي موضوعات فرعية بمزيد من التفصيل.

على سبيل المثال ، يمكنك كتابة مقال أساسي عن الطائرات المقاتلة البريطانية في الحرب العالمية الثانية. وبعد ذلك يمكنك كتابة مقال عبر الأقمار الصناعية حول Spitfires ، ومقال آخر عن Hurricanes ، ومقال آخر عن Gloster Gladiators ، وما إلى ذلك.

ستبني مقالات الأقمار الصناعية على الطائرات المقاتلة الفردية السلطة الموضعية لمقالك الأساسي.

استخدم Google Auto Suggest. ابدأ في كتابة الكلمة الرئيسية التي تركز عليها في Google ولاحظ الاختلافات الطويلة التي تأتي بها Google. هذه كلها مواضيع فرعية تنتمي إلى موضوعك الرئيسي. حاول تضمين هذه الموضوعات الفرعية كعناوين في مقالتك.

افعل الشيء نفسه مع "People Ask أيضًا" (عادةً ثلث الطريق أسفل صفحة النتائج) و "عمليات البحث ذات الصلة" من Google (أسفل صفحة النتائج) - هذه كلها مواضيع أو مواضيع فرعية ذات صلة. قم بتضمينها تحت عناوين متبوعة ببضع فقرات ، وسوف تعزز السلطة الموضعية لمقالك.

Google: لا يوجد شيء مثل كلمات LSI

لا يمكنني إنهاء هذا المقال دون معالجة تغريدة جون مولر في يوليو 2019.

ها هو:

ما الذي يمكن فعله من هذا؟

حسنًا أولاً ، لم يقل أن Google لا تستخدم الفهرسة الدلالية الكامنة. وثانيًا ، ربما كان ببساطة يعترض على مصطلح "الكلمات الدلالية الدلالية الكامنة".

ولكن هل هناك مجموعة من الكلمات ذات الصلة التي تتجمع معًا في نمط يمكن التنبؤ به للموضوع الذي تكتب عنه؟ وهل تستخدم Google مجموعات الكلمات هذه لتحديد الموضوعات؟

أنا على استعداد للمراهنة عليه!

استنتاج

الفهرسة الدلالية الكامنة هي طريقة رياضية لفهم معنى الكلمات من خلال دراسة الأنماط بالطريقة التي تتجمع بها الكلمات معًا في محتوى نصي.

بينما لا يوجد دليل قاطع على أن محركات البحث تستخدمه ، يبدو أنه من المرجح أن يفعلوا ذلك. ربما تستخدم محركات البحث مثل Google الفهرسة الدلالية الكامنة لفهم السياق وتخطيط الموضوعات والمواضيع الفرعية.

تستبدل السلطة الموضوعية كثافة الكلمات الرئيسية كعامل تصنيف. سيساعدك فهم الفهرسة الدلالية الكامنة في بناء سلطة موضوعية لمقالاتك وموقعك على الويب وترتيب أعلى في نتائج البحث.

مقالات ذات صلة

  • ما هي كلمات LSI (طريقة سهلة لتعزيز مُحسّنات محرّكات البحث)
  • ما هي مجموعات المواضيع ولماذا ستعزز تحسين محركات البحث لديك
  • كيفية إنشاء هيكل صومعة على موقع الويب الخاص بك (دليل مصور)