잠재 시맨틱 인덱싱이란 무엇입니까? 알아야 할 7가지
게시 됨: 2020-03-13잠재 시맨틱 인덱싱이 무엇인지 궁금하십니까?
LSI에 대해 많은 혼란이 있습니다. 그리고 심지어 논란. 이 기사에서는 이것이 무엇인지, 검색 엔진에서 어떻게 사용하는지, 검색 결과에서 더 높은 순위 를 얻기 위해 어떻게 사용할 수 있는지 설명합니다.
하지만 먼저…
1. 잠재 시맨틱 인덱싱이란 무엇입니까?
그렇다면 잠재 시맨틱 인덱싱이란 정확히 무엇입니까?
Latent Semantic Indexing은 온라인 콘텐츠에서 단어가 함께 모여 있는 방식으로 패턴 을 찾는 수학적 방법입니다. 그런 다음 해당 정보는 쿼리에 응답하는 데 사용할 수 있도록 인덱싱됩니다.
다시 말해서, 잠재 의미 인덱싱은 단어의 동시 발생을 연구합니다. 그렇게 함으로써 단어 사이의 숨겨진(잠재적인) 관계를 찾아 의미(의미론)를 이해할 수 있게 합니다.
잠재 의미 색인은 문맥에 따라 단어의 의미가 변한다는 사실을 고려하기 때문에 텍스트 이해 분야에서 중요한 진전이었습니다.
여기 몇 가지 예가 있어요.
- 팔 은 팔꿈치에서 구부립니다.
- 독일은 사우디아라비아에 무기 를 판매한다.
- 머리로 해결책 을 생각해 보세요.
- 용액 을 섭씨 75°로 가열합니다.
- 열쇠 가 자물쇠에서 부러졌습니다.
- 핵심 문제는 질이 아니라 양이었다.
잠재적 의미론적 인덱싱의 핵심에는 분포 가설(Distributional Hypothesis) 이라는 이론이 있습니다. 이 이론에 따르면 같은 맥락 에서 발생하는 단어는 유사한 의미를 갖는 경향이 있습니다. 한 언어학자가 말했듯이 "당신은 그것이 유지하는 회사에 의해 단어를 알게 될 것입니다."
간단히 말해서 비슷한 맥락을 공유하는 단어는 비슷한 의미를 갖는 경향이 있습니다.
"당신은 그것이 유지하는 회사에 의해 단어를 알게 될 것입니다."
JR 퍼스, 1957
2. 키워드 분석과 잠재 시맨틱 인덱싱
그렇다면 이것이 검색 엔진과 어떤 관련이 있습니까?
1990년대 후반, 최초의 검색 엔진이 등장했을 때, 키워드 밀도 는 이용 가능한 유일한 관련성 척도였습니다. 콘텐츠에 키워드가 더 많이 등장할수록 검색어와 관련성이 높아졌습니다.
물론 키워드 밀도는 컨텍스트를 이해하지 못했습니다. 그리고 조작하기도 쉬웠다. 웹사이트는 주어진 키워드로 콘텐츠를 채워 검색 결과에서 높은 순위를 기록합니다.
그러나 잠재된 의미적 인덱싱이 장면에 나타났을 때 키워드 스터핑은 더 이상 효과적이지 않았습니다.
왜요?
잠재 시맨틱 인덱싱을 사용하면 검색 엔진이 단일 키워드를 찾는 것이 아니라 키워드 패턴을 찾고 있기 때문입니다.
다시 말해서 검색 엔진은 키워드 분석에서 주제별 권위로 이동하고 있습니다 .
3. 잠재적 의미론적 인덱싱 및 국소적 권위
온라인 콘텐츠에서 단어가 함께 클러스터링되는 방식의 패턴을 식별함으로써, 잠재 의미론적 인덱싱은 주제와 하위 주제를 구성하는 단어 클러스터를 식별할 수 있습니다.
실제로 어떤 주제에 대해 작성하든 검색 엔진은 해당 주제 또는 하위 주제와 관련된 단어 클러스터를 알고 있습니다. 이는 검색 엔진이 콘텐츠의 주제적 권위를 측정할 수 있음을 의미합니다.
예전(1990년대 ~ 2005년)에는 하나의 키워드를 강조하여 검색 결과에서 순위를 매길 수 있었습니다.
하지만 지금 순위를 매기려면 콘텐츠에 화제의 권위가 있음을 보여야 합니다. 그리고 그것은 잠재 의미론적 인덱싱을 통해 주제로 식별된 전체 단어 클러스터를 사용하는 것을 의미합니다.
4. 잠재적 의미론적 인덱싱 및 주제 권한
주제 권한은 도메인 권한을 능가합니다.
화제의 권위는 검색 엔진의 주요 순위 요소가 되고 있습니다. 예를 들어, Google에서는 매우 높은 주제 권위를 가진 콘텐츠를 만들어 훨씬 더 높은 도메인 권위를 가진 웹사이트(즉, 훨씬 더 강력한 링크 프로필을 가진 웹사이트)보다 순위를 높일 수 있습니다.
내 도메인 권위가 겨우 24세였을 때 나는 80년대와 90년대에 단순히 주제 권위가 높은 콘텐츠를 만드는 것만으로도 정기적으로 DA가 있는 웹사이트보다 순위가 높았습니다.

웹 사이트에는 주제 권한도 있습니다.
지금까지 단일 웹 페이지 또는 단일 블로그 게시물과 관련된 주제적 권위에 대해 이야기했습니다.
그러나 웹사이트 자체에는 주제적 권위가 있습니다. 그리고 Google과 같은 검색 엔진은 이미 웹사이트의 주제 권한이 무엇인지에 대해 매우 잘 알고 있을 것입니다.
예를 들어, 당신이 쓰는 모든 것이 1930년대 재즈 음악이라면 당신의 웹사이트는 그 주제에 대해 매우 높은 화제성을 갖게 될 것입니다. 해당 주제에 대한 기사를 게시하면 웹 페이지의 순위가 매우 높아집니다. 도메인 권한이 더 높은 웹사이트보다 순위가 높을 수 있습니다.
그러나 귀하의 웹사이트가 현존하는 재즈의 모든 장르와 시대를 다루고 있다면 1930년대 재즈에 대한 귀하의 웹페이지는 다른 웹사이트의 기사만큼 순위가 높지 않을 것입니다.
5. 잠재 시맨틱 인덱싱 및 벡터 분석
우리는 잠재 시맨틱 인덱싱에 대해 많이 이야기했습니다. 그러나 컴퓨터가 단어의 의미를 이해하기 위해 사용하는 유일한 도구는 아닙니다.
벡터 분석이라는 것도 있습니다.
그렇다면 단어에 적용할 때 벡터 분석이란 무엇입니까?
단어 벡터는 단일 단어와 관련된 수학적 값의 행입니다. 행의 각 값은 단어 의미의 차원을 캡처합니다.
다음은 예입니다.

(원천)
행의 각 숫자는 4가지 다른 벡터(동물, 가축, 애완동물, 솜털) 중 하나에 따라 단어의 의미를 캡슐화하려고 시도합니다.
잠재 의미론적 인덱싱과 단어 벡터의 차이점은 LSI가 카운트 기반 모델이라는 것입니다. 단순히 특정 컨텍스트에서 단어가 몇 번 발생하는지 계산합니다. 그러나 단어 벡터는 예측 기반 모델입니다. 벡터 분석을 기반으로 단어의 의미를 예측하려고 시도합니다.
예를 들어, 벡터 분석을 통해 Google 알고리즘은 "파리와 프랑스가 베를린과 독일(수도 및 국가)과 같은 방식으로 관련되어 있고 마드리드와 이탈리아가 동일한 방식으로 관련되어 있지 않다는 것을 이해합니다."
6. Google은 잠재 시맨틱 인덱싱을 사용합니까?
여기서부터 논란이 시작되는데...
'오래된 기술'로서의 잠재 시맨틱 인덱싱
최근 Google이 잠재 의미론적 인덱싱을 사용하지 않는다고 주장하는 여러 기사가 온라인에 나타났습니다. 그들 중 일부는 더 나아가 LSI의 작동 방식을 이해하는 것이 SEO에 도움이 되지 않을 것이라고 주장합니다.
물론 Google 외부의 누구도 Google 알고리즘이 정확히 무엇을 하는지 알지 못합니다.
그러나 Google이 잠재적 의미론적 인덱싱을 사용할 가능성(또는 그렇지 않은 경우)을 살펴보겠습니다.
일부에서는 LSI가 1980년대에 개발되었기 때문에 '오래된 기술'이며 따라서 Google이 알고리즘에 LSI를 사용할 가능성이 낮다고 주장합니다.
이 주장에는 문제 가 있습니다.
LSI가 발견된 날짜는 현재 Google에서 사용 중인지 여부와 관련이 없습니다.
사실, 기술이 발견된 날짜는 우리가 오늘날에도 그 기술을 사용하는지 여부와 아무런 관련이 없습니다 .

X선의 발견자 빌헬름 콘라트 뢴트겐(Wilhelm Conrad Roentgen)
(원천)
예를 들어, x-선은 1895년에 발견되었습니다(독일 뷔르츠부르크 대학교 교수 빌헬름 콘라드 뢴트겐). 따라서 엄밀히 말하면 '오래된 기술'입니다.
그러나 병원에서 "엑스레이는 오래된 기술을 기반으로 하기 때문에 더 이상 사용하지 않을 것"이라고 말하는 것은 터무니없는 일 입니다.
집에서 가까운 또 다른 예가 있습니다.

이진법의 창시자 고트프리트 빌헬름 라이프니츠(Gottfried Wilhelm Leibniz)
(원천)
컴퓨터는 모든 데이터가 '0' 또는 '1'로 축소되는 이진 시스템을 기반으로 합니다.
이진법은 Gottfried Wilhelm Leibniz에 의해 발명되었으며, 그는 1701년 'Essay d'une nouvelle science des nombres'라는 제목의 논문에서 자신의 발명을 발표했습니다.
당신은 최신 컴퓨터가 18 세기 일 발명을 기반으로 주장 할 수 있도록.

현대 컴퓨터의 선구자, 튜링 머신
(원천)
어떤 사람들 은 더 최근의 기원을 주장합니다. 그들은 현대 컴퓨터를 Alan Turing의 1936년 발명인 '범용 기계'(현재는 Turing 기계라고 함)까지 추적합니다.
어느 쪽이든 컴퓨터는 '오래된 기술' (관점에 따라 1701년 또는 1936년)을 기반으로 합니다.
따라서 LSI가 1980년대에 발견되었다는 사실은 여기도 저기도 아닙니다. LSI가 더 이상 관련이 없거나 유용하지 않다는 의미는 아닙니다.
Google의 2009년 특허 출원
내가 말했듯이 Google은 알고리즘이 작동하는 방식에 대해 매우 신중합니다.
하지만 2009년 3월 구글은 미국 특허를 출원했다(US 8,145,636 B1). 특허 출원의 제목은 "텍스트를 계층적 범주로 분류"였습니다.

응용 프로그램에는 다음 단락이 포함되어 있습니다.
“텍스트 분류 기술은 텍스트를 하나 이상의 주제 범주로 분류하는 데 사용할 수 있습니다. 텍스트 분류/분류는 내용을 기반으로 하나 이상의 카테고리에 텍스트를 할당하는 것과 관련된 정보 과학의 연구 영역입니다. 일반적인 텍스트 분류 기술은 나이브 베이즈 분류기, tf-idf, 잠재 의미론을 기반으로 합니다. 예를 들어 인덱싱 , 지원 벡터 머신 및 인공 신경망".

그렇다면 Google은 잠재 시맨틱 인덱싱을 사용합니까?
우리는 확실히 모릅니다.
그러나 그렇지 않은 경우에는 예외적일 것입니다(LSI가 '오래된 기술'이기 때문에 확실히 그렇지 않을 것입니다).
7. LSI가 Google에서 더 나은 순위를 얻는 데 어떻게 도움이 됩니까?
LSI가 Google에서 더 높은 순위를 얻는 데 도움이 되는 다양한 방법이 있습니다. 가장 중요한 것은 단순히 Google이 키워드가 아닌 주제에 초점을 맞추고 있다는 사실을 깨닫는 것입니다.
위에서 언급했듯이 잠재적 의미론적 색인을 통해 Google은 전체 주제와 해당 주제를 구성하는 하위 주제를 매핑할 수 있습니다. 즉, 알고리즘이 특정 주제를 얼마나 잘 다루는지 측정할 수 있음을 의미합니다.
다시 말해 Google은 콘텐츠의 주제적 권위를 측정할 수 있습니다.
다음은 콘텐츠가 높은 주제 권위를 갖도록 하는 몇 가지 방법입니다.
주제 분석을 하십시오. 포커스 키워드에 대한 상위 5개 검색 결과를 보고 해당 웹 페이지에서 다루는 주제와 하위 주제를 기록해 두십시오. 귀하의 콘텐츠가 다른 콘텐츠보다 더 많은 주제와 하위 주제를 다루고 있는지 확인하십시오.
주제 클러스터를 만듭니다. 주제를 광범위하게 다루는 핵심 기사를 작성하십시오. 그런 다음 하위 주제를 더 자세히 다루는 '위성' 기사를 작성하십시오.
예를 들어, 2차 세계 대전의 영국 전투기에 대한 핵심 기사를 작성할 수 있습니다. 그런 다음 Spitfires에 대한 위성 기사, 허리케인에 대한 또 다른 기사, Gloster Gladiators에 대한 다른 기사 등을 작성할 수 있습니다.
개별 전투기에 대한 위성 기사는 핵심 기사의 주제적 권위를 구축합니다.
Google 자동 제안을 사용하세요. 포커스 키워드를 Google에 입력하기 시작하고 Google에서 제공하는 롱테일 변형을 확인하십시오. 그것들은 모두 귀하의 주 주제에 속하는 하위 주제입니다. 이러한 하위 주제를 기사의 제목으로 포함시키십시오.
Google의 'People Also Ask' (일반적으로 결과 페이지 하단의 1/3)와 Google의 'Related Searches'(결과 페이지 하단)도 동일하게 수행하십시오. 이들은 모두 관련 주제 또는 하위 주제입니다. 제목 아래에 그것들을 포함하고 몇 개의 단락이 뒤따르면 기사의 주제적 권위를 높일 수 있습니다.
Google: LSI 키워드 같은 것은 없습니다.
2019년 7월 John Mueller의 트윗을 언급하지 않고는 이 기사를 마칠 수 없습니다.
여기있어:
LSI 키워드와 같은 것은 없습니다. 다르게 말하면 잘못 알고 있는 것입니다. 죄송합니다.
— 존(@JohnMu) 2019년 7월 30일
이것을 무엇으로 만들까요?
첫째, 그는 구글이 잠재적 의미론적 인덱싱을 사용하지 않는다고 말하지 않았습니다. 둘째, 그는 단순히 '잠재적 의미 키워드'라는 용어에 반대했을 수도 있습니다.
그러나 당신이 쓰고 있는 주제 에 대해 예측 가능한 패턴으로 함께 모여 있는 관련 단어 그룹이 있습니까? Google은 이러한 단어 클러스터를 사용하여 주제를 식별합니까?
나는 그것에 내기할 용의가 있다!
결론
잠재 의미 인덱싱은 텍스트 콘텐츠에서 단어가 함께 그룹화되는 방식으로 패턴을 연구하여 단어의 의미를 이해하는 수학적 방법입니다.
검색 엔진이 그것을 사용한다는 확실한 증거는 없지만 그렇게 할 가능성이 더 높아 보입니다. Google과 같은 검색 엔진은 컨텍스트를 이해하고 주제 및 하위 주제를 매핑하기 위해 잠재적 의미론적 색인을 사용합니다.
주제적 권위는 순위 요인으로 키워드 밀도를 대체하고 있습니다. 잠재 시맨틱 인덱싱을 이해하면 기사와 웹사이트에 대한 주제적 권위를 구축하고 검색 결과에서 더 높은 순위를 얻는 데 도움이 됩니다.
관련 기사
- LSI 키워드란 무엇입니까(SEO를 향상시키는 쉬운 방법)
- 주제 클러스터는 무엇이며 SEO를 향상시키는 이유
- 웹사이트에 사일로 구조를 만드는 방법(그림 가이드)
