Что такое скрытое семантическое индексирование? 7 вещей, которые вам нужно знать
Опубликовано: 2020-03-13Хотите знать, что такое скрытое семантическое индексирование?
С LSI много путаницы . И даже споры. В этой статье я объясню, что это такое, как его используют поисковые системы и как вы можете использовать его для повышения рейтинга в результатах поиска.
Но сначала…
1. Что такое скрытое семантическое индексирование?
Так что же такое скрытое семантическое индексирование?
Скрытое семантическое индексирование - это математический метод поиска закономерностей в том, как слова группируются вместе в онлайн-контенте. Затем эта информация индексируется, чтобы ее можно было использовать для ответов на запросы.
Другими словами, латентное семантическое индексирование изучает совместное появление слов. Таким образом он находит скрытые (скрытые) отношения между словами, что, в свою очередь, позволяет ему понимать значение (семантику).
Скрытое семантическое индексирование стало важным шагом вперед в области понимания текста, поскольку оно учитывает тот факт, что значение слов изменяется в зависимости от контекста.
Вот некоторые примеры:
- Руки согните в локтях.
- Германия продает оружие Саудовской Аравии.
- Придумайте решение в уме.
- Нагрейте раствор до 75 ° по Цельсию.
- Ключ сломался в замке.
- Ключевая проблема заключалась не в качестве, а в количестве.
В основе скрытого семантического индексирования лежит теория, называемая распределительной гипотезой . Согласно этой теории, слова, встречающиеся в одном контексте, как правило, имеют похожие значения. Как сказал один лингвист: «Вы должны знать слово по компании, которую он составляет».
Короче говоря, слова, имеющие схожий контекст, как правило, имеют схожие значения.
«Вы должны знать слово по компании, которую оно составляет».
Дж. Р. Ферт, 1957 г.
2. Анализ ключевых слов и скрытое семантическое индексирование
Итак, как это связано с поисковыми системами?
В конце 1990-х, когда появились первые поисковые машины, плотность ключевых слов была единственной доступной мерой релевантности. Чем чаще ключевое слово появлялось в фрагменте контента, тем больше оно соответствовало поисковому запросу.
Конечно, плотность ключевых слов не могла понять контекст. К тому же им было легко манипулировать. Веб-сайты будут занимать высокие позиции в результатах поиска, если наполнить их содержание заданным ключевым словом.
Но когда на сцене появилось скрытое семантическое индексирование, заполнение ключевыми словами перестало быть эффективным.
Почему?
Потому что при скрытом семантическом индексировании поисковые системы ищут не одно ключевое слово - они ищут шаблоны ключевых слов .
Другими словами: поисковые системы уходят от анализа ключевых слов в сторону авторитетности .
3. Скрытое семантическое индексирование и авторитетность темы
Выявляя шаблоны в том, как слова группируются вместе в онлайн-контенте, латентное семантическое индексирование может идентифицировать кластеры слов, которые составляют темы и подтемы.
Фактически, какую бы тему вы ни писали, поисковые системы знают, какой кластер слов связан с этой темой или подтемой . А это означает, что поисковые системы могут измерять актуальный авторитет части контента.
Раньше (с 1990-х по ~ 2005 год) вы могли ранжироваться в результатах поиска, выделяя одно ключевое слово.
Но для того, чтобы ранжироваться сейчас, вам нужно показать, что ваш контент имеет актуальный авторитет. А это означает использование всего набора слов, которые были идентифицированы с вашей темой посредством скрытого семантического индексирования.
4. Скрытое семантическое индексирование и авторитетность темы
Актуальный авторитет превосходит авторитет домена
Актуальный авторитет становится основным фактором ранжирования для поисковых систем. В Google, например, вы можете превзойти веб-сайты с гораздо более высоким авторитетом домена (т. Е. Веб-сайты с гораздо более сильным ссылочным профилем), создав контент с очень высоким авторитетом.
Когда авторитет моего домена составлял всего 24, в 80-х и 90-х я регулярно превосходил веб-сайты с DA, просто создавая контент с высоким авторитетом.
Веб-сайты также имеют тематический авторитет
До сих пор я говорил об актуальных авторитетах, поскольку они относятся к отдельной веб-странице или отдельному сообщению в блоге.
Но сам веб-сайт имеет актуальный авторитет. А поисковые системы, такие как Google, уже будут иметь очень хорошее представление об актуальном авторитете вашего веб-сайта.
Например, если вы пишете только о джазе 1930-х годов, ваш веб-сайт будет иметь очень высокий авторитет по этой теме. Когда вы публикуете статьи на эту тему, ваша веб-страница будет иметь очень высокий рейтинг. Скорее всего, вы обойдете сайты с более высоким авторитетом домена.
Но если ваш веб-сайт охватывает все жанры и эпохи джаза, которые когда-либо существовали, ваша веб-страница о джазе 1930-х годов, вероятно, не будет иметь такого же высокого рейтинга, как статья на другом веб-сайте.

5. Скрытое семантическое индексирование и векторный анализ.
Мы много говорили о скрытой семантической индексации. Но это не единственный инструмент, который используют компьютеры, чтобы понять значение слов.
Есть еще такая вещь, как векторный анализ.
Так что же такое векторный анализ в применении к словам?
Вектор слова - это строка математических значений, связанных с одним словом. Каждое значение в строке отражает измерение значения слова.
Вот пример:

(Источник)
Каждое число в строке пытается инкапсулировать значение слова в соответствии с одним из четырех различных векторов (животное, одомашненный, домашнее животное, пушистый).
Разница между скрытой семантической индексацией и векторами слов заключается в том, что LSI - это модель, основанная на подсчете - она просто подсчитывает, сколько раз слова встречаются в определенном контексте. Но векторы слов - это модель, основанная на прогнозировании - они пытаются предсказать значение слова на основе векторного анализа.
Например, с помощью векторного анализа алгоритм Google «понимает, что Париж и Франция связаны такими же отношениями, как Берлин и Германия (столица и страна), а не так, как Мадрид и Италия».
6. Использует ли Google скрытое семантическое индексирование?
Вот где начинается полемика ...
Скрытое семантическое индексирование как «старая технология»
В последнее время в сети появился ряд статей о том, что Google не использует скрытую семантическую индексацию. Некоторые из них идут дальше и заявляют, что понимание того, как работает LSI, не поможет вашему SEO.
Конечно, никто, кроме Google, точно не знает, что делает алгоритм Google.
Но давайте посмотрим на вероятность (или нет) того, что Google использует скрытое семантическое индексирование.
Некоторые утверждали, что, поскольку LSI был разработан в 1980-х годах, это «старая технология», и поэтому маловероятно, что Google использует LSI в своем алгоритме.
В этом аргументе есть проблема .
Дата открытия LSI не имеет отношения к тому, используется ли он сегодня в Google.
Действительно, дата открытия какой-либо технологии не имеет никакого отношения к тому, используем ли мы ее до сих пор.

Вильгельм Конрад Рентген, первооткрыватель рентгеновских лучей
(Источник)
Например, рентгеновские лучи были открыты в 1895 году (Вильгельмом Конрадом Рентгеном, профессором Вюрцбургского университета в Германии). Строго говоря, это «старые технологии».
Но со стороны больниц было бы абсурдно сказать: «поскольку рентгеновские лучи основаны на старых технологиях, мы больше не будем их использовать».
Вот еще пример, поближе к дому.

Готфрид Вильгельм Лейбниц, изобретатель двоичной системы
(Источник)
Компьютеры основаны на двоичной системе, где все данные приводятся к «0» или «1».
Бинарная система была изобретена Готфридом Вильгельмом Лейбницем, который опубликовал свое изобретение в статье 1701 года под названием «Essay d'une nouvelle science des nombres».
Таким образом , можно утверждать , что современные компьютеры на основе 18 - го века изобретения.

Машина Тьюринга, предшественница современного компьютера
(Источник)
Некоторые люди утверждают, что это происхождение было более недавним . Они прослеживают современный компьютер до изобретения «универсальной машины» Аланом Тьюрингом в 1936 году (теперь называемой машиной Тьюринга).
В любом случае, компьютеры основаны на «старых технологиях» (1701 или 1936 год, в зависимости от вашей точки зрения).
Таким образом, тот факт, что LSI был открыт в 1980-х годах, не является ни здесь, ни там - это не означает, что LSI больше не актуальна или полезна.
Патентная заявка Google 2009 г.
Как я уже сказал, Google очень осторожно относится к работе своих алгоритмов.
Но в марте 2009 года Google подала заявку на патент в США (8 145 636 B1). Заявка на патент называлась «Классификация текста по иерархическим категориям».

Приложение содержит такой абзац:
«Методы классификации текста могут использоваться для классификации текста по одной или нескольким тематическим категориям. Классификация / категоризация текста - это область исследований в области информатики, которая занимается отнесением текста к одной или нескольким категориям на основе его содержания. Типичные методы классификации текстов основаны на наивных байесовских классификаторах, tf-idf, скрытой семантике. индексация , поддержка векторных машин и искусственных нейронных сетей, например ».

Так использует ли Google скрытое семантическое индексирование?
Точно не знаем.
Но было бы необычно, если бы этого не произошло (и уж точно не потому, что LSI - «старая технология»).
7. Как LSI может повысить ваш рейтинг в Google?
LSI может помочь вам занять более высокое место в Google разными способами. Самое важное - просто понять, что Google сосредоточен на темах, а не на ключевых словах.
Как я упоминал выше, с помощью скрытой семантической индексации Google может отображать целые темы и подтемы, составляющие эти темы. Это, в свою очередь, означает, что алгоритм может измерить, насколько хорошо фрагмент контента охватывает конкретную тему.
Другими словами, Google может измерить актуальность вашего контента.
Вот несколько способов обеспечить высокий авторитет вашего контента:
Проведите анализ темы. Посмотрите на пять первых результатов поиска по ключевому слову и отметьте темы и подтемы, охватываемые этими веб-страницами. Постарайтесь, чтобы ваш контент охватывал больше этих тем и подтем, чем любой другой контент.
Создайте тематические кластеры. Напишите основную статью, подробно освещающую тему. А затем напишите «вспомогательные» статьи, которые более подробно освещают подтемы.
Например, вы можете написать основную статью о британских истребителях времен Второй мировой войны. А потом вы могли бы написать спутниковую статью о Спитфайрах, еще одну статью о ураганах, еще одну статью о Gloster Gladiators и так далее.
Спутниковые статьи об отдельных самолетах-истребителях укрепят авторитетность вашей основной статьи.
Используйте Google Auto Suggest. Начните вводить ключевое слово focus в Google и обратите внимание на варианты с длинным хвостом, которые предлагает Google. Это все подтемы, относящиеся к вашей основной теме. Постарайтесь включить эти подтемы в качестве заголовков в свою статью.
Сделайте то же самое с Google «Люди также спрашивают» (обычно одна треть вниз по странице результатов) и Google «Похожие запросы» (внизу страницы результатов) - это все связанные темы или подтемы. Включите их под заголовками, за которыми следуют несколько абзацев, и вы повысите актуальность своей статьи.
Google: нет такой вещи, как ключевые слова LSI
Я не могу закончить эту статью, не прочитав твит Джона Мюллера от июля 2019 года.
Вот:
Не существует такой вещи, как ключевые слова LSI - любой, кто говорит вам обратное, ошибается, извините.
- Джон (@JohnMu) 30 июля 2019 г.
Что с этим делать?
Во-первых, он не сказал, что Google не использует скрытое семантическое индексирование. А во-вторых, он мог просто возражать против терминологии «скрытые семантические ключевые слова».
Но существует ли группа связанных слов, которые объединяются в предсказуемую структуру для темы, о которой вы пишете? И использует ли Google эти словосочетания для определения тем?
Готов поспорить на это!
Вывод
Скрытое семантическое индексирование - это математический метод понимания значения слов путем изучения закономерностей в том, как слова группируются в текстовом содержимом.
Хотя нет веских доказательств того, что поисковые системы используют его, более чем вероятно, что они это делают. Поисковые системы, такие как Google, вероятно, используют скрытое семантическое индексирование для понимания контекста и определения тем и подтем.
Актуальный авторитет заменяет плотность ключевых слов в качестве фактора ранжирования. Понимание скрытой семантической индексации поможет вам повысить авторитетность ваших статей и веб-сайта и занять более высокое место в результатах поиска.
Статьи по Теме
- Что такое ключевые слова LSI (простой способ повысить ваш SEO)
- Что такое тематические кластеры и почему они улучшат ваше SEO
- Как создать разрозненную структуру на вашем веб-сайте (иллюстрированное руководство)
