什么是潜在语义索引? 你需要知道的 7 件事

已发表: 2020-03-13

想知道什么是潜在语义索引?

关于 LSI 有很多困惑。 甚至引起争议。 在本文中,我将解释它是什么、搜索引擎如何使用它,以及如何使用它在搜索结果中排名更高

但首先…

what is latent semantic indexing
目录
1. 什么是潜在语义索引?
2. 关键字分析与潜在语义索引
3. 潜在语义索引和主题权威
4. 潜在语义索引和主题权威
主题权威胜过域权威
网站也有话题权威
5. 潜在语义索引和向量分析
6. 谷歌是否使用潜在语义索引?
潜在语义索引作为“旧技术”
谷歌 2009 年的专利申请
7. LSI 如何帮助您在 Google 中获得更好的排名?
谷歌:没有 LSI 关键字这样的东西
结论
相关文章

1. 什么是潜在语义索引?

那么究竟什么是潜在语义索引呢?

潜在语义索引是一种数学方法,用于以单词在在线内容中聚集在一起的方式来查找模式。 然后将该信息编入索引,以便它可以用于回答查询。

换句话说,潜在语义索引研究单词的共现。 通过这样做,它可以找到单词之间隐藏的(潜在的)关系,从而使其能够理解含义(语义)。

潜在语义索引是文本理解领域向前迈出的重要一步,因为它考虑了单词的含义根据上下文而变化的事实。

这里有些例子:

  • 手臂在肘部弯曲。
  • 德国向沙特阿拉伯出售武器
  • 在头脑中找出解决方案
  • 溶液加热至 75°C。
  • 钥匙破了锁。
  • 关键问题不在于质量,而在于数量。

潜在语义索引的核心是一种称为分布假设的理论。 根据这一理论,出现在相同上下文中的词往往具有相似的含义。 正如一位语言学家所说:“你应该知道一个词与它保持的关系。”

简而言之,共享相似上下文的单词往往具有相似的含义。

“你应该知道它所拥有的公司一个字。”


JR 弗斯,1957

2. 关键字分析与潜在语义索引

那么这与搜索引擎有什么关系呢?

在 1990 年代后期,当第一个搜索引擎出现时,关键字密度是唯一可用的相关性衡量标准。 关键字在一段内容中出现的次数越多,它与搜索查询的相关性就越高。

当然,关键字密度无法理解上下文。 而且它也很容易操纵。 通过使用给定的关键字填充其内容,网站将在搜索结果中排名靠前。

但是当潜在语义索引出现在现场时,关键字填充不再有效。

为什么?

因为使用潜在语义索引,搜索引擎不是在寻找单个关键字 - 他们正在寻找关键字模式

换句话说:搜索引擎正在从关键字分析转向话题权威

3. 潜在语义索引和主题权威

通过识别在线内容中单词聚集在一起的模式,潜在语义索引能够识别构成主题和子主题的单词集群。

实际上,无论您写什么主题,搜索引擎都知道与该主题或副主题相关联的词组是什么。 这意味着搜索引擎可以衡量一段内容的主题权威。

在过去(1990 年代到 2005 年),您可以通过强调一个关键字在搜索结果中排名。

但是为了现在排名,您需要表明您的内容具有话题权威。 这意味着使用已通过潜在语义索引与您的主题识别的整个词组。

4. 潜在语义索引和主题权威

主题权威胜过域权威

话题权威正在成为搜索引擎的主要排名因素。 例如,在 Google 上,您可以通过创建具有非常高的主题权威的内容来超越具有更高域权威的网站(即具有更强链接配置文件的网站)。

当我的域权限只有 24 岁的时候,我曾经在 80 年代和 90 年代经常通过创建具有高主题权限的内容来经常超越具有 DA 的网站。

网站也有话题权威

到目前为止,我一直在谈论主题权威,因为它与单个网页或单个博客文章相关。

但网站本身具有话题权威。 像谷歌这样的搜索引擎已经很清楚你网站的主题权威是什么。

例如,如果您撰写的所有内容都是 1930 年代的爵士音乐,那么您的网站在该主题上将具有非常高的主题权威。 当您发布有关该主题的文章时,您的网页排名将非常高。 您可能会超过具有更高域权限的网站。

但是,如果您的网站涵盖了爵士乐的所有流派和时代,那么您关于 1930 年代爵士乐的网页的排名可能不会与其他网站的文章一样高。

5. 潜在语义索引和向量分析

我们已经讨论了很多关于潜在语义索引的内容。 但这并不是计算机用来尝试理解单词含义的唯一工具。

还有一种叫做矢量分析的东西。

那么当向量分析应用于单词时,什么是向量分析?

词向量是与单个词相关联的一行数学值。 行中的每个值都捕获单词含义的一个维度。

下面是一个例子:

latent semantic indexing

(来源)

行中的每个数字都试图根据四种不同的向量(动物、家养、宠物、蓬松)之一来封装单词的含义。

潜在语义索引和词向量之间的区别在于 LSI 是一个基于计数的模型——它只是计算词在特定上下文中出现的次数。 但是词向量是基于预测的模型——它们试图基于向量分析来预测词的含义。

例如,通过向量分析,谷歌算法“理解巴黎和法国的关系就像柏林和德国的关系(首都和国家),而不是马德里和意大利的关系”

6. 谷歌是否使用潜在语义索引?

争论由此开始……

潜在语义索引作为“旧技术”

最近,网上出现了许多文章,声称 Google 不使用潜在语义索引。 他们中的一些人走得更远,声称了解 LSI 的工作原理不会帮助您的 SEO。

当然,谷歌之外没有人确切知道谷歌算法是做什么的。

但让我们看看谷歌使用潜在语义索引的可能性(或其他)。

有人争辩说,因为 LSI 是在 1980 年代开发的,它是“老技术”,因此谷歌不太可能在其算法中使用 LSI。

这个说法有问题

LSI 被发现的日期与今天是否被 Google 使用无关。

事实上,任何技术被发现的日期与我们今天是否仍在使用它无关

Wilhelm Conrad Roentgen, discoverer of X rays

X射线发现者威廉·康拉德·伦琴

(来源)

例如,X 射线是在 1895 年发现的(由德国维尔茨堡大学教授 Wilhelm Conrad Roentgen 发现)。 所以严格来说它们是“旧技术”。

但是,如果医院说:“因为 X 射线是基于旧技术,我们将不再使用它们”,那将是荒谬的

这是另一个例子,离家更近。

what is latent semantic indexing

戈特弗里德·威廉·莱布尼茨,二进制系统的发明者

(来源)

计算机基于二进制系统,其中所有数据都减少为“0”或“1”。

二元系统是由戈特弗里德·威廉·莱布尼茨 (Gottfried Wilhelm Leibniz) 发明的,他在 1701 年的一篇论文中发表了他的发明,题为:'Essay d'une nouvelle science des nombres'。

所以,你可以说,现代计算机是基于18世纪的发明。

The Turing machine, forerunner of the modern computer

图灵机,现代计算机的先驱

(来源)

有些人争论更近的起源。 他们将现代计算机追溯到艾伦·图灵 1936 年发明的“通用机器”(现在称为图灵机)。

无论哪种方式,计算机都是基于“旧技术” (1701 年或 1936 年,取决于您的观点)。

因此,LSI 是在 1980 年代被发现的事实既不存在也不存在——这并不意味着 LSI 不再相关或不再有用。

谷歌 2009 年的专利申请

正如我所说,谷歌对其算法的工作方式非常谨慎。

但在 2009 年 3 月,谷歌在美国申请了专利(US 8,145,636 B1)。 该专利申请的标题是“将文本分类为分层类别”。

Google patent application, 2009

该应用程序包含以下段落:

“文本分类技术可用于将文本分类为一个或多个主题类别。 文本分类/分类是信息科学中的一个研究领域,它涉及根据文本内容将文本分配到一个或多个类别。 典型的文本分类技术基于朴素贝叶斯分类器、tf-idf、潜在语义 例如索引、支持向量机和人工神经网络”。

Google patent application, 2009

那么谷歌是否使用了潜在语义索引?

我们不确定。

但如果没有,那将是非同寻常的(当然也不会因为 LSI 是“老技术”)。

7. LSI 如何帮助您在 Google 中获得更好的排名?

LSI 可以通过多种方式帮助您在 Google 中获得更高的排名。 最重要的是要意识到 Google 专注于主题,而不是关键字。

正如我上面提到的,通过潜在语义索引,Google 能够绘制出整个主题和组成这些主题的子主题。 反过来,这意味着该算法可以衡量一段内容对特定主题的覆盖程度。

换句话说,谷歌可以衡量你的内容的话题权威。

以下是一些确保您的内容具有高主题权威的方法:

做一些话题分析。 查看您的焦点关键字的前五个搜索结果,并记下这些网页涵盖的主题和子主题。 尽量确保您的内容比任何其他内容涵盖更多这些主题和子主题

创建主题集群。 写一篇涵盖广泛细节主题的核心文章。 然后撰写更详细地涵盖子主题的“卫星”文章。

例如,您可以写一篇关于二战英国战斗机的核心文章。 然后你可以写一篇关于喷火的卫星文章,另一篇关于飓风的文章,另一篇关于格洛斯特角斗士的文章,等等。

个别战斗机上的卫星文章将建立您的核心文章的主题权威。

使用谷歌自动建议。 开始在 Google 中输入您的焦点关键字,并注意 Google 提出的长尾变体。 这些都是属于您的主要主题的子主题。 尝试将这些子主题作为标题包含在您的文章中。

对 Google 的“People Also Ask” (通常位于结果页面下方三分之一处)和 Google 的“相关搜索”(在结果页面底部)执行相同的操作——这些都是相关主题或子主题。 将它们包含在标题下,然后是几段,您将提高文章的主题权威。

谷歌:没有 LSI 关键字这样的东西

如果不解决约翰·穆勒 2019 年 7 月的那条推文,我就无法完成这篇文章。

这里是:

怎么办?

首先,他没有说谷歌不使用潜在语义索引。 其次,他可能只是一直反对术语“潜在语义关键字”。

但是,对于您正在撰写的主题,是否有一组相关的单词以可预测的模式聚集在一起? 谷歌是否使用这些词组来识别主题?

我愿意赌一把!

结论

潜在语义索引是一种通过研究单词在文本内容中组合在一起的方式来理解单词含义的数学方法。

虽然没有确凿的证据表明搜索引擎会使用它,但它们似乎很有可能会使用。 Google 等搜索引擎可能使用潜在语义索引来理解上下文并绘制主题和子主题。

话题权威正在取代关键字密度作为排名因素。 对潜在语义索引的理解将帮助您为文章和网站建立主题权威,并在搜索结果中排名更高。

相关文章

  • 什么是 LSI 关键字(提升 SEO 的简便方法)
  • 什么是主题集群以及它们为什么会提升您的 SEO
  • 如何在您的网站上创建筒仓结构(图解指南)