什麼是潛在語義索引? 你需要知道的 7 件事

已發表: 2020-03-13

想知道什麼是潛在語義索引?

關於 LSI 有很多困惑。 甚至引起爭議。 在本文中,我將解釋它是什麼、搜索引擎如何使用它,以及如何使用它在搜索結果中排名更高

但首先…

what is latent semantic indexing
目錄
1. 什麼是潛在語義索引?
2. 關鍵字分析與潛在語義索引
3. 潛在語義索引和主題權威
4. 潛在語義索引和主題權威
主題權威勝過域權威
網站也有話題權威
5. 潛在語義索引和向量分析
6. 谷歌是否使用潛在語義索引?
潛在語義索引作為“舊技術”
谷歌 2009 年的專利申請
7. LSI 如何幫助您在 Google 中獲得更好的排名?
谷歌:沒有 LSI 關鍵字這樣的東西
結論
相關文章

1. 什麼是潛在語義索引?

那麼究竟什麼是潛在語義索引呢?

潛在語義索引是一種數學方法,用於以單詞在在線內容中聚集在一起的方式來查找模式。 然後將該信息編入索引,以便它可以用於回答查詢。

換句話說,潛在語義索引研究單詞的共現。 通過這樣做,它可以找到單詞之間隱藏的(潛在的)關係,從而使其能夠理解含義(語義)。

潛在語義索引是文本理解領域向前邁出的重要一步,因為它考慮了單詞的含義根據上下文而變化的事實。

這裡有些例子:

  • 手臂在肘部彎曲。
  • 德國向沙特阿拉伯出售武器
  • 在頭腦中找出解決方案
  • 溶液加熱至 75°C。
  • 鑰匙破了鎖。
  • 關鍵問題不在於質量,而在於數量。

潛在語義索引的核心是一種稱為分佈假設的理論。 根據這一理論,出現在相同上下文中的詞往往具有相似的含義。 正如一位語言學家所說:“你應該知道一個詞與它保持的關係。”

簡而言之,共享相似上下文的單詞往往具有相似的含義。

“你應該知道它所擁有的公司一個字。”


JR 弗斯,1957

2. 關鍵字分析與潛在語義索引

那麼這與搜索引擎有什麼關係呢?

在 1990 年代後期,當第一個搜索引擎出現時,關鍵字密度是唯一可用的相關性衡量標準。 關鍵字在一段內容中出現的次數越多,它與搜索查詢的相關性就越高。

當然,關鍵字密度無法理解上下文。 而且它也很容易操縱。 通過使用給定的關鍵字填充其內容,網站將在搜索結果中排名靠前。

但是當潛在語義索引出現在現場時,關鍵字填充不再有效。

為什麼?

因為使用潛在語義索引,搜索引擎不是在尋找單個關鍵字 - 他們正在尋找關鍵字模式

換句話說:搜索引擎正在從關鍵字分析轉向話題權威

3. 潛在語義索引和主題權威

通過識別在線內容中單詞聚集在一起的模式,潛在語義索引能夠識別構成主題和子主題的單詞集群。

實際上,無論您寫什麼主題,搜索引擎都知道與該主題或副主題相關聯的詞組是什麼。 這意味著搜索引擎可以衡量一段內容的主題權威。

在過去(1990 年代到 2005 年),您可以通過強調一個關鍵字在搜索結果中排名。

但是為了現在排名,您需要表明您的內容具有話題權威。 這意味著使用已通過潛在語義索引與您的主題識別的整個詞組。

4. 潛在語義索引和主題權威

主題權威勝過域權威

話題權威正在成為搜索引擎的主要排名因素。 例如,在 Google 上,您可以通過創建具有非常高的主題權威的內容來超越具有更高域權威的網站(即具有更強鏈接配置文件的網站)。

當我的域權限只有 24 歲的時候,我曾經在 80 年代和 90 年代經常通過創建具有高主題權限的內容來定期超越具有 DA 的網站。

網站也有話題權威

到目前為止,我一直在談論主題權威,因為它與單個網頁或單個博客文章相關。

但網站本身俱有話題權威。 像谷歌這樣的搜索引擎已經很清楚你網站的主題權威是什麼。

例如,如果您撰寫的所有內容都是 1930 年代的爵士音樂,那麼您的網站在該主題上將具有非常高的主題權威。 當您發布有關該主題的文章時,您的網頁排名將非常高。 您可能會超過具有更高域權限的網站。

但是,如果您的網站涵蓋了爵士樂的所有流派和時代,那麼您關於 1930 年代爵士樂的網頁的排名可能不會與其他網站的文章一樣高。

5. 潛在語義索引和向量分析

我們已經討論了很多關於潛在語義索引的內容。 但這並不是計算機用來嘗試理解單詞含義的唯一工具。

還有一種叫做矢量分析的東西。

那麼當向量分析應用於單詞時,什麼是向量分析?

詞向量是與單個詞相關聯的一行數學值。 行中的每個值都捕獲單詞含義的一個維度。

下面是一個例子:

latent semantic indexing

(來源)

行中的每個數字都試圖根據四種不同的向量(動物、家養、寵物、蓬鬆)之一來封裝單詞的含義。

潛在語義索引和詞向量之間的區別在於 LSI 是一個基於計數的模型——它只是計算詞在特定上下文中出現的次數。 但是詞向量是基於預測的模型——它們試圖基於向量分析來預測詞的含義。

例如,通過向量分析,谷歌算法“理解巴黎和法國的關係就像柏林和德國的關係(首都和國家),而不是馬德里和意大利的關係”

6. 谷歌是否使用潛在語義索引?

爭論由此開始……

潛在語義索引作為“舊技術”

最近,網上出現了許多文章,聲稱 Google 不使用潛在語義索引。 他們中的一些人走得更遠,聲稱了解 LSI 的工作原理不會幫助您的 SEO。

當然,谷歌之外沒有人確切知道谷歌算法是做什麼的。

但讓我們看看谷歌使用潛在語義索引的可能性(或其他)。

有人爭辯說,因為 LSI 是在 1980 年代開發的,它是“老技術”,因此谷歌不太可能在其算法中使用 LSI。

這個說法有問題

LSI 被發現的日期與今天是否被 Google 使用無關。

事實上,任何技術被發現的日期與我們今天是否仍在使用它無關

Wilhelm Conrad Roentgen, discoverer of X rays

X射線發現者威廉·康拉德·倫琴

(來源)

例如,X 射線是在 1895 年發現的(由德國維爾茨堡大學教授 Wilhelm Conrad Roentgen 發現)。 所以嚴格來說它們是“舊技術”。

但是,如果醫院說:“因為 X 射線是基於舊技術,我們將不再使用它們”,那將是荒謬的

這是另一個例子,離家更近。

what is latent semantic indexing

戈特弗里德·威廉·萊布尼茨,二進制系統的發明者

(來源)

計算機基於二進制系統,其中所有數據都減少為“0”或“1”。

二元系統是由戈特弗里德·威廉·萊布尼茨 (Gottfried Wilhelm Leibniz) 發明的,他在 1701 年的一篇論文中發表了他的發明,題為:'Essay d'une nouvelle science des nombres'。

所以,你可以說,現代計算機是基於18世紀的發明。

The Turing machine, forerunner of the modern computer

圖靈機,現代計算機的先驅

(來源)

有些人爭論更近的起源。 他們將現代計算機追溯到艾倫·圖靈 1936 年發明的“通用機器”(現在稱為圖靈機)。

無論哪種方式,計算機都是基於“舊技術” (1701 年或 1936 年,取決於您的觀點)。

因此,LSI 是在 1980 年代被發現的事實既不存在也不存在——這並不意味著 LSI 不再相關或不再有用。

谷歌 2009 年的專利申請

正如我所說,谷歌對其算法的工作方式非常謹慎。

但在 2009 年 3 月,谷歌在美國申請了專利(US 8,145,636 B1)。 該專利申請的標題是“將文本分類為分層類別”。

Google patent application, 2009

該應用程序包含以下段落:

“文本分類技術可用於將文本分類為一個或多個主題類別。 文本分類/分類是信息科學中的一個研究領域,它涉及根據文本內容將文本分配到一個或多個類別。 典型的文本分類技術基於樸素貝葉斯分類器、tf-idf、潛在語義 例如索引、支持向量機和人工神經網絡”。

Google patent application, 2009

那麼谷歌是否使用了潛在語義索引?

我們不確定。

但如果沒有,那將是非同尋常的(當然也不會因為 LSI 是“老技術”)。

7. LSI 如何幫助您在 Google 中獲得更好的排名?

LSI 可以通過多種方式幫助您在 Google 中獲得更高的排名。 最重要的是要意識到 Google 專注於主題,而不是關鍵字。

正如我上面提到的,通過潛在語義索引,Google 能夠繪製出整個主題和組成這些主題的子主題。 反過來,這意味著該算法可以衡量一段內容對特定主題的覆蓋程度。

換句話說,谷歌可以衡量你的內容的話題權威。

以下是一些確保您的內容具有高主題權威的方法:

做一些話題分析。 查看您的焦點關鍵字的前五個搜索結果,並記下這些網頁涵蓋的主題和子主題。 盡量確保您的內容比任何其他內容涵蓋更多這些主題和子主題

創建主題集群。 寫一篇涵蓋廣泛細節主題的核心文章。 然後撰寫更詳細地涵蓋子主題的“衛星”文章。

例如,您可以寫一篇關於二戰英國戰鬥機的核心文章。 然後你可以寫一篇關於噴火的衛星文章,另一篇關於颶風的文章,另一篇關於格洛斯特角斗士的文章,等等。

個別戰鬥機上的衛星文章將建立您的核心文章的主題權威。

使用谷歌自動建議。 開始在 Google 中輸入您的焦點關鍵字,並註意 Google 提出的長尾變體。 這些都是屬於您的主要主題的子主題。 嘗試將這些子主題作為標題包含在您的文章中。

對 Google 的“People Also Ask” (通常位於結果頁面下方三分之一處)和 Google 的“相關搜索”(在結果頁面底部)執行相同的操作——這些都是相關主題或子主題。 將它們包含在標題下,然後是幾段,您將提高文章的主題權威。

谷歌:沒有 LSI 關鍵字這樣的東西

如果不解決約翰·穆勒 2019 年 7 月的那條推文,我就無法完成這篇文章。

這裡是:

怎麼辦?

首先,他沒有說谷歌不使用潛在語義索引。 其次,他可能只是一直反對術語“潛在語義關鍵字”。

但是,對於您正在撰寫的主題,是否有一組相關的單詞以可預測的模式聚集在一起? 谷歌是否使用這些詞組來識別主題?

我願意賭一把!

結論

潛在語義索引是一種通過研究單詞在文本內容中組合在一起的方式來理解單詞含義的數學方法。

雖然沒有確鑿的證據表明搜索引擎會使用它,但它們似乎很有可能會使用。 Google 等搜索引擎可能使用潛在語義索引來理解上下文並繪製主題和子主題。

話題權威正在取代關鍵字密度作為排名因素。 對潛在語義索引的理解將幫助您為文章和網站建立主題權威,並在搜索結果中排名更高。

相關文章

  • 什麼是 LSI 關鍵字(提升 SEO 的簡便方法)
  • 什麼是主題集群以及它們為什麼會提升您的 SEO
  • 如何在您的網站上創建筒倉結構(圖解指南)