潜在意味索引付けとは何ですか? 知っておくべき7つのこと

公開: 2020-03-13

潜在意味索引付けとは何か疑問に思っていますか?

LSIには多くの混乱があります。 そして論争さえ。 この記事では、それが何であるか、検索エンジンがそれをどのように使用するか、そしてそれを使用して検索結果で上位ランク付けする方法について説明します。

でもまず…

what is latent semantic indexing
目次
1.潜在意味索引付けとは何ですか?
2.キーワード分析と潜在意味索引付け
3.潜在意味索引付けとトピック権限
4.潜在意味索引付けとトピック権限
トピックの権限はドメインの権限に勝る
ウェブサイトにもトピックの権限があります
5.潜在意味索引付けとベクトル分析
6. Googleは潜在意味インデックスを使用していますか?
「古い技術」としての潜在意味索引付け
Googleの2009年特許出願
7. LSIはどのようにGoogleでのランクを上げるのに役立ちますか?
グーグル:LSIキーワードのようなものはありません
結論
関連記事

1.潜在意味索引付けとは何ですか?

では、潜在意味索引付けとは正確には何ですか?

潜在意味索引付けは、単語がオンラインコンテンツでクラスター化する方法でパターン見つけるための数学的方法です。 次に、その情報にインデックスが付けられ、クエリへの回答に使用できるようになります。

別の言い方をすれば、潜在意味索引付けは単語の共起を研究します。 そうすることで、単語間の隠された(潜在的な)関係を見つけ、それによって意味(意味論)を理解できるようになります。

潜在意味索引付けは、単語の意味が文脈によって変化するという事実を考慮に入れているため、テキスト理解の分野にとって大きな前進でした。

ここではいくつかの例を示します。

  • は肘で曲がります。
  • ドイツはサウジアラビアに武器を販売してます。
  • 頭の解決策を見つけてください。
  • 溶液を摂氏75度に加熱します。
  • 鍵を壊した。
  • 重要な問題は質ではなく量でした。

潜在意味索引付けの中心には、分布仮説と呼ばれる理論があります。 この理論によれば、同じ文脈で出現する単語は、同じような意味を持つ傾向があります。 ある言語学者が言ったように、「あなたはそれが保持している会社の言葉を知っているでしょう」。

要するに、同じような文脈を共有する単語は、同じような意味を持つ傾向があります。

「あなたはそれが保持している会社の言葉を知っているでしょう。」


JRファース、1957年

2.キーワード分析と潜在意味索引付け

では、これは検索エンジンとどのように関係しているのでしょうか。

1990年代後半、最初の検索エンジンが登場したとき、キーワード密度は利用可能な唯一の関連性の尺度でした。 キーワードがコンテンツに出現する回数が多いほど、検索クエリとの関連性が高くなります。

もちろん、キーワード密度は文脈を理解できませんでした。 また、操作も簡単でした。 ウェブサイトは、コンテンツに特定のキーワードを詰め込むことで、検索結果の上位にランク付けされます。

しかし、潜在的なセマンティックインデックスがシーンに登場すると、キーワードの乱用は効果的ではなくなりました。

どうして?

潜在意味索引付けでは、検索エンジンは単一のキーワードを探しているのではなく、キーワードのパターンを探しているからです。

別の言い方をすれば、検索エンジンはキーワード分析から話題の権威へと移行しています。

3.潜在意味索引付けとトピック権限

単語がオンラインコンテンツでクラスター化する方法でパターンを識別することにより、潜在意味索引付けは、トピックとサブトピックを構成する単語のクラスターを識別することができます。

実際、あなたがどのトピックについて書いても、検索エンジンはどの単語クラスターがそのトピックまたはサブトピックに関連付けられているかを知っています。 つまり、検索エンジンはコンテンツのトピックの権限を測定できるということです。

昔(1990年代から2005年まで)は、1つのキーワードを強調することで検索結果にランク付けすることができました。

ただし、今すぐランク付けするには、コンテンツにトピックの権限があることを示す必要があります。 そしてそれは、潜在意味索引付けによってトピックで識別された単語のクラスター全体を使用することを意味します。

4.潜在意味索引付けとトピック権限

トピックの権限はドメインの権限に勝る

話題の権威は、検索エンジンの主要なランキング要素になりつつあります。 たとえば、Googleでは、非常に高いトピック権限を持つコンテンツを作成することで、はるかに高いドメイン権限を持つWebサイト(つまり、はるかに強力なリンクプロファイルを持つWebサイト)を上回ることができます。

私のドメイン権限が24歳のとき、私は80年代と90年代に、高いトピック権限を持つコンテンツを作成するだけで、DAを使用してWebサイトを定期的に上回っていました。

ウェブサイトにもトピックの権限があります

これまで、単一のWebページまたは単一のブログ投稿に関連するトピックの権限について話してきました。

しかし、ウェブサイト自体には話題の権威があります。 そしてグーグルのような検索エンジンはあなたのウェブサイトの話題の権威が何であるかについてすでに非常に良い考えを持っているでしょう。

たとえば、あなたが書いているのが1930年代のジャズ音楽だけである場合、あなたのWebサイトはそのトピックに関して非常に高い話題の権威を持っています。 そのトピックに関する記事を公開すると、Webページは非常に上位にランク付けされます。 ドメイン権限の高いWebサイトよりもランクが高くなる可能性があります。

しかし、あなたのウェブサイトがこれまでに存在したジャズのすべてのジャンルと時代をカバーしている場合、1930年代のジャズのあなたのウェブページはおそらく他のウェブサイトの記事ほど高くランク付けされないでしょう。

5.潜在意味索引付けとベクトル分析

潜在意味索引付けについて多くのことを話しました。 しかし、コンピューターが単語の意味を理解しようとするために使用しているツールはこれだけではありません。

ベクトル解析と呼ばれるものもあります。

では、単語に適用した場合のベクトル解析とは何ですか?

単語ベクトルは、単一の単語に関連付けられた数学値の行です。 行の各値は、単語の意味の次元をキャプチャします。

次に例を示します。

latent semantic indexing

(ソース)

行の各数字は、4つの異なるベクトル(動物、飼いならされた、ペット、ふわふわ)のいずれかに従って単語の意味をカプセル化しようとします。

潜在意味索引付けと単語ベクトルの違いは、LSIがカウントベースのモデルであるということです。つまり、特定のコンテキストで単語が出現する回数をカウントするだけです。 しかし、単語ベクトルは予測ベースのモデルであり、ベクトル分析に基づいて単語の意味を予測しようとします。

たとえば、ベクトル解析を通じて、Googleのアルゴリズムは、「パリとフランスはベルリンとドイツ(首都と国)と同じように関連しており、マドリッドとイタリアとは同じではないことを理解しています」

6. Googleは潜在意味インデックスを使用していますか?

これは論争が始まるところです...

「古い技術」としての潜在意味索引付け

最近、Googleが潜在的セマンティックインデックスを使用していないと主張する多くの記事がオンラインで登場しています。 それらのいくつかはさらに進んで、LSIがどのように機能するかを理解することはあなたのSEOを助けないだろうと主張します。

もちろん、グーグルの外部の誰もグーグルのアルゴリズムが何をするかを正確に知りません。

しかし、Googleが潜在的セマンティックインデックスを使用する可能性(またはそうでない場合)を見てみましょう。

LSIは1980年代に開発されたため、「古いテクノロジー」であり、GoogleがアルゴリズムにLSIを使用する可能性は低いと主張する人もいます。

この議論には問題があります。

LSIが発見された日付は、現在Googleで使用されているかどうかとは関係ありません。

確かに、技術が発見された日付は、私たちが今日でもそれを使用しているかどうかには関係ありません

Wilhelm Conrad Roentgen, discoverer of X rays

X線の発見者、ヴィルヘルム・コンラッド・レントゲン

(ソース)

たとえば、X線は1895年に発見されました(ドイツのヴュルツブルク大学のヴィルヘルム・コンラッド・レントゲン教授)。 厳密に言えば、それらは「古いテクノロジー」です。

しかし、病院が「X線は古い技術に基づいているので、もう使用しない」と言うのはばかげているでしょう。

これは別の例で、家の近くにあります。

what is latent semantic indexing

バイナリシステムの発明者、ゴットフリートウィルヘルムライプニッツ

(ソース)

コンピュータはバイナリシステムに基づいており、すべてのデータが「0」または「1」に削減されます。

バイナリシステムは、ゴットフリートウィルヘルムライプニッツによって発明されました。ゴットフリートウィルヘルムライプニッツは、1701年の論文「Essayd'une nouvelle sciencedesnombres」で彼の発明を発表しました。

あなたは、現代のコンピュータは、18世紀番目の発明に基づいていると主張することができるように。

The Turing machine, forerunner of the modern computer

現代のコンピューターの先駆けであるチューリングマシン

(ソース)

より最近の起源を主張する人もいます。 彼らは現代のコンピューターをアランチューリングが1936年に発明した「万能機械」(現在はチューリング機械と呼ばれている)にまでさかのぼります。

いずれにせよ、コンピュータは「古い技術」に基づいています(あなたの視点に応じて1701または1936)。

したがって、1980年代にLSIが発見されたという事実は、ここにもそこにもありません。それは、LSIがもはや関連性がない、または有用ではないという意味ではありません。

Googleの2009年特許出願

私が言ったように、グーグルはそれがどのように機能するかについて非常に気難しい。

しかし、2009年3月、Googleは米国で特許を申請しました(US 8,145,636B1)。 特許出願は「テキストを階層的カテゴリーに分類する」と題された。

Google patent application, 2009

アプリケーションには次の段落が含まれています。

「テキスト分類手法を使用して、テキストを1つ以上の主題カテゴリに分類できます。 テキストの分類/分類は、情報科学の研究分野であり、その内容に基づいて1つ以上のカテゴリにテキストを割り当てることに関係しています。 典型的なテキスト分類手法は、単純ベイズ分類器、tf-idf、潜在意味に基づいています インデックス作成、サポートベクターマシン、人工ニューラルネットワークなど。」

Google patent application, 2009

では、Googleは潜在意味索引付けを使用していますか?

よくわかりません。

しかし、そうでなければ、それは並外れたことになるでしょう(そして、LSIが「古い技術」であるため、それは確かにそうではありません)。

7. LSIはどのようにGoogleでのランクを上げるのに役立ちますか?

LSIがGoogleで上位にランクインするのに役立つさまざまな方法があります。 最も重要なのは、Googleがキーワードではなくトピックに焦点を合わせていることを理解することです。

上で述べたように、潜在意味索引付けを通じて、Googleはトピック全体とそれらのトピックを構成するサブトピックをマップすることができます。 つまり、アルゴリズムは、ピースのコンテンツが特定のトピックをどの程度カバーしているかを測定できることを意味します。

言い換えれば、Googleはあなたのコンテンツの話題の権威を測定することができます。

コンテンツに高いトピック権限があることを確認する方法は次のとおりです。

トピック分析を行います。 フォーカスキーワードの上位5つの検索結果を見て、それらのWebページがカバーするトピックとサブトピックをメモします。 コンテンツが他のどのコンテンツよりも多くのトピックやサブトピックをカバーしていることを確認してください

トピッククラスターを作成します。 トピックを幅広くカバーするコア記事を書きます。 そして、サブトピックをより詳細にカバーする「衛星」記事を書きます。

たとえば、第二次世界大戦のイギリスの戦闘機に関するコア記事を書くことができます。 そして、スピットファイアに関する衛星記事、ハリケーンに関する別の記事、グロスターグラディエーターに関する別の記事などを書くことができます。

個々の戦闘機の衛星記事は、コア記事の話題の権威を構築します。

Google自動提案を使用します。 Googleにフォーカスキーワードを入力し始めて、Googleが思いついたロングテールのバリエーションに注目してください。 これらはすべて、メイントピックに属するサブトピックです。 それらのサブトピックを見出しとして記事に含めるようにしてください。

Googleの「PeopleAlsoAsk」 (通常は結果ページの3分の1)とGoogleの「RelatedSearches」(結果ページの下部)でも同じことを行います。これらはすべて関連トピックまたはサブトピックです。 見出しの下にいくつかの段落を含めてください。そうすれば、記事の話題の権威を高めることができます。

グーグル:LSIキーワードのようなものはありません

2019年7月のジョンミューラーによるそのツイートに対処せずにこの記事を終えることはできません。

ここにあります:

これをどうする?

まず第一に、彼はグーグルが潜在意味索引付けを使用しないとは言いませんでした。 そして第二に、彼は単に「潜在意味キーワード」という用語に反対していたのかもしれません。

しかし、あなたが書いているトピックの予測可能なパターン一緒にクラスター化する関連する単語のグループはありますか? そして、Googleはそれらの単語クラスターを使用してトピックを識別しますか?

私はそれに賭けても構わないと思っています!

結論

潜在意味索引付けは、単語がテキストコンテンツ内でグループ化される方法でパターンを調査することにより、単語の意味を理解するための数学的方法です。

検索エンジンがそれを使用しているという確固たる証拠はありませんが、使用している可能性が高いようです。 Googleなどの検索エンジンは、おそらく潜在意味インデックスを使用して、コンテキストを理解し、トピックとサブトピックをマッピングします。

話題の権威は、ランキング要素としてキーワード密度を置き換えています。 潜在意味索引付けを理解すると、記事とWebサイトのトピックの権限を構築し、検索結果で上位にランク付けするのに役立ちます。

関連記事

  • LSIキーワードとは(SEOを高める簡単な方法)
  • トピッククラスターとは何ですか?なぜそれらがSEOを後押しするのか
  • Webサイトにサイロ構造を作成する方法(図解ガイド)