Co to jest ukryte indeksowanie semantyczne? 7 rzeczy, które musisz wiedzieć

Opublikowany: 2020-03-13

Zastanawiasz się, czym jest ukryte indeksowanie semantyczne?

Wokół LSI jest dużo zamieszania . A nawet kontrowersje. W tym artykule wyjaśnię, co to jest, w jaki sposób wyszukiwarki go wykorzystują i jak możesz go wykorzystać, aby uzyskać wyższą pozycję w wynikach wyszukiwania.

Ale najpierw…

Spis treści

1. Co to jest ukryte indeksowanie semantyczne?

2. Analiza słów kluczowych a ukryte indeksowanie semantyczne

3. Utajone indeksowanie semantyczne i autorytet tematyczny

4. Utajone indeksowanie semantyczne i autorytet tematyczny

Autorytet tematyczny przebija autorytet domeny

Strony internetowe mają również autorytet tematyczny

5. Utajone indeksowanie semantyczne i analiza wektorowa

6. Czy Google używa ukrytego indeksowania semantycznego?

Utajone indeksowanie semantyczne jako „stara technologia”

Zgłoszenie patentowe Google z 2009 r.

7. W jaki sposób LSI może pomóc w lepszej pozycji w Google?

Google: nie ma czegoś takiego jak słowa kluczowe LSI

Wniosek

Powiązane artykuły

1. Co to jest ukryte indeksowanie semantyczne?

Czym dokładnie jest ukryte indeksowanie semantyczne?

Utajone indeksowanie semantyczne to matematyczna metoda wyszukiwania wzorców w sposobie, w jaki słowa grupują się w treści online. Informacje te są następnie indeksowane, aby można je było wykorzystać do odpowiedzi na zapytania.

Innymi słowy, ukryte indeksowanie semantyczne bada współwystępowanie słów. W ten sposób odnajduje ukryte (utajone) relacje między słowami, co z kolei pozwala mu rozumieć znaczenie (semantykę).

Utajone indeksowanie semantyczne było dużym krokiem naprzód w dziedzinie rozumienia tekstu, ponieważ uwzględnia fakt, że znaczenie słów zmienia się w zależności od kontekstu.

Oto kilka przykładów:

Ramiona zginają się w łokciach.
Niemcy sprzedają broń Arabii Saudyjskiej.

Wypracuj rozwiązanie w swojej głowie.
Podgrzej roztwór do 75° Celsjusza.

Klucz złamał się w zamku.
Kluczowym problemem nie była jakość, ale ilość.

Sednem ukrytego indeksowania semantycznego jest teoria zwana Hipotezą Dystrybucji . Zgodnie z tą teorią słowa występujące w tym samym kontekście mają zwykle podobne znaczenia. Jak ujął to jeden z lingwistów: „Poznasz słowo po towarzystwie, które prowadzi”.

Krótko mówiąc, słowa, które mają podobny kontekst, mają zwykle podobne znaczenie.

„Poznasz słowo po towarzystwie, które trzyma”.

JR Firth, 1957

2. Analiza słów kluczowych a ukryte indeksowanie semantyczne

Więc jak to się ma do wyszukiwarek?

Pod koniec lat 90., kiedy pojawiły się pierwsze wyszukiwarki, gęstość słów kluczowych była jedyną dostępną miarą trafności. Im więcej razy słowo kluczowe pojawiało się w treści, tym bardziej pasowało do zapytania wyszukiwania.

Oczywiście gęstość słów kluczowych nie pozwalała zrozumieć kontekstu. A także łatwo było nim manipulować. Strony internetowe uplasowałyby się wysoko w wynikach wyszukiwania, upychając swoją treść danym słowem kluczowym.

Ale kiedy na scenie pojawiło się ukryte indeksowanie semantyczne, upychanie słów kluczowych nie było już skuteczne.

Czemu?

Ponieważ dzięki ukrytemu indeksowaniu semantycznemu wyszukiwarki nie szukają pojedynczego słowa kluczowego – szukają wzorców słów kluczowych .

Innymi słowy: wyszukiwarki odchodzą od analizy słów kluczowych w kierunku autorytetu tematycznego .

3. Utajone indeksowanie semantyczne i autorytet tematyczny

Identyfikując wzorce w sposobie, w jaki słowa grupują się w treści online, ukryte indeksowanie semantyczne jest w stanie zidentyfikować skupienia słów, które składają się na tematy i podtematy.

W efekcie, niezależnie od tematu, o którym piszesz, wyszukiwarki wiedzą, jaki zestaw słów jest powiązany z tym tematem lub podtematem . A to oznacza, że wyszukiwarki mogą mierzyć autorytet danego fragmentu treści.

W dawnych czasach (lata 90. do 2005) można było umieszczać w wynikach wyszukiwania jedno słowo kluczowe.

Ale aby teraz uzyskać pozycję w rankingu, musisz pokazać, że Twoje treści mają autorytet tematyczny. A to oznacza użycie całego zestawu słów, które zostały zidentyfikowane z Twoim tematem poprzez ukryte indeksowanie semantyczne.

4. Utajone indeksowanie semantyczne i autorytet tematyczny

Autorytet tematyczny przebija autorytet domeny

Autorytet tematyczny staje się głównym czynnikiem rankingowym dla wyszukiwarek. Na przykład w Google możesz przelicytować strony o znacznie wyższym autorytecie domeny (tj. strony o znacznie silniejszym profilu linków), tworząc treści, które mają bardzo wysoki autorytet tematyczny.

Kiedy mój domain authority miał zaledwie 24 lata, w latach 80. i 90. regularnie przebijałem strony z DA, po prostu tworząc treści o wysokim autorytecie tematycznym.

Strony internetowe mają również autorytet tematyczny

Do tej pory mówiłem o aktualnym autorytecie w odniesieniu do pojedynczej strony internetowej lub pojedynczego wpisu na blogu.

Ale sama strona internetowa ma autorytet tematyczny. Wyszukiwarki, takie jak Google, będą już miały bardzo dobre pojęcie o tym, jaki jest autorytet Twojej witryny.

Na przykład, jeśli wszystko, o czym piszesz, to muzyka jazzowa z lat 30., Twoja strona internetowa będzie miała bardzo wysoki autorytet w tym temacie. Kiedy opublikujesz artykuły na ten temat, Twoja strona internetowa będzie miała bardzo wysoką pozycję w rankingu. Prawdopodobnie przelicytujesz witryny o wyższym autorytecie domeny.

Ale jeśli twoja strona internetowa obejmuje każdy gatunek i erę jazzu, jaka kiedykolwiek istniała, twoja strona o jazzie z lat 30. prawdopodobnie nie będzie miała tak wysokiej pozycji, jak artykuł na innej stronie.

5. Utajone indeksowanie semantyczne i analiza wektorowa

Dużo mówiliśmy o ukrytym indeksowaniu semantycznym. Ale to nie jedyne narzędzie, którego używają komputery, aby zrozumieć znaczenie słów.

Jest też coś, co nazywa się analizą wektorową.

Czym więc jest analiza wektorowa w zastosowaniu do słów?

Wektor słowa to rząd wartości matematycznych powiązanych z pojedynczym słowem. Każda wartość w wierszu oddaje wymiar znaczenia słowa.

Oto przykład:

(Źródło)

Każda liczba w rzędzie próbuje zawrzeć znaczenie słowa zgodnie z jednym z czterech różnych wektorów (zwierzęcy, udomowiony, domowy, puszysty).

Różnica między ukrytym indeksowaniem semantycznym a wektorami słów polega na tym, że LSI jest modelem opartym na liczbie — po prostu zlicza, ile razy słowa występują w określonym kontekście. Ale wektory słów są modelem opartym na przewidywaniu – próbują przewidzieć znaczenie słowa na podstawie analizy wektorowej.

Na przykład dzięki analizie wektorowej algorytm Google „rozumie, że Paryż i Francja są powiązane w taki sam sposób, jak Berlin i Niemcy (stolica i kraj), a nie w ten sam sposób, w jaki Madryt i Włochy”

6. Czy Google używa ukrytego indeksowania semantycznego?

Tu zaczyna się kontrowersja...

Utajone indeksowanie semantyczne jako „stara technologia”

Ostatnio w Internecie pojawiło się wiele artykułów, w których twierdzi się, że Google nie używa ukrytego indeksowania semantycznego. Niektórzy z nich idą dalej i twierdzą, że zrozumienie działania LSI nie pomoże w SEO.

Oczywiście nikt poza Google nie wie dokładnie, co robi algorytm Google.

Spójrzmy jednak na prawdopodobieństwo (lub inne), że Google używa ukrytego indeksowania semantycznego.

Niektórzy twierdzą, że ponieważ LSI zostało opracowane w latach 80., jest to „stara technologia” i dlatego jest mało prawdopodobne, aby Google używał LSI w swoim algorytmie.

Jest problem z tym argumentem.

Data odkrycia LSI nie ma znaczenia dla tego, czy jest on obecnie używany przez Google.

Rzeczywiście, data odkrycia jakiejkolwiek technologii nie ma wpływu na to, czy nadal jej używamy.

Wilhelm Conrad Roentgen, discoverer of X rays

Wilhelm Conrad Roentgen, odkrywca promieni rentgenowskich

(Źródło)

Na przykład promienie rentgenowskie odkryto w 1895 r. (przez Wilhelma Conrada Roentgena, profesora Uniwersytetu w Würzburgu w Niemczech). A więc ściśle mówiąc, są to „stare technologie”.

Ale absurdem byłoby, gdyby szpitale powiedziały: „ponieważ zdjęcia rentgenowskie są oparte na starej technologii, nie będziemy ich już używać”.

Oto kolejny przykład, bliżej domu.

Gottfried Wilhelm Leibniz, wynalazca systemu binarnego

(Źródło)

Komputery są oparte na systemie binarnym, w którym wszystkie dane są zredukowane do „0” lub „1”.

System binarny został wynaleziony przez Gottfrieda Wilhelma Leibniza, który opublikował swój wynalazek w artykule z 1701 roku zatytułowanym „Essay d'une nouvelle science des nombres”.

Można więc argumentować, że współczesne komputery są oparte na wynalazku z ^XVIII wieku.

The Turing machine, forerunner of the modern computer

Maszyna Turinga, prekursora współczesnego komputera

(Źródło)

Niektórzy opowiadają się za nowszym pochodzeniem . Śledzą oni współczesny komputer do wynalazku Alana Turinga z 1936 r. „Maszyny uniwersalnej” (obecnie nazywanej maszyną Turinga).

Tak czy inaczej, komputery są oparte na „starej technologii” (1701 lub 1936 w zależności od punktu widzenia).

Tak więc fakt, że LSI odkryto w latach 80., nie jest ani tu, ani tam – nie oznacza to, że LSI nie jest już istotne ani użyteczne.

Zgłoszenie patentowe Google z 2009 r.

Jak powiedziałem, Google bardzo ostrożnie podchodzi do działania swoich algorytmów.

Jednak w marcu 2009 r. firma Google złożyła wniosek o patent w Stanach Zjednoczonych (8 145 636 B1). Zgłoszenie patentowe nosiło tytuł „Klasyfikacja tekstu na kategorie hierarchiczne”.

Aplikacja zawiera ten akapit:

„Techniki klasyfikacji tekstu można wykorzystać do sklasyfikowania tekstu na jedną lub więcej kategorii tematycznych. Klasyfikacja/kategoryzacja tekstu to obszar badawczy w informatyce, który zajmuje się przypisywaniem tekstu do jednej lub więcej kategorii na podstawie jego zawartości. Typowe techniki klasyfikacji tekstu oparte są na naiwnych klasyfikatorach Bayesa, tf-idf, utajonej semantyce indeksowania , wspomagania maszyn wektorowych i sztucznych sieci neuronowych, na przykład”.

Czy Google używa ukrytego indeksowania semantycznego?

Nie wiemy na pewno.

Ale byłoby to niezwykłe, gdyby tak się nie stało (i na pewno nie byłoby tak, ponieważ LSI to „stara technologia”).

7. W jaki sposób LSI może pomóc Ci uzyskać lepszą pozycję w Google?

Istnieje wiele sposobów, w jakie LSI może pomóc Ci uzyskać wyższą pozycję w Google. Najważniejsze jest po prostu uświadomienie sobie, że Google koncentruje się na tematach, a nie na słowach kluczowych.

Jak wspomniałem powyżej, dzięki ukrytemu indeksowaniu semantycznemu Google jest w stanie odwzorować całe tematy i podtematy, które składają się na te tematy. To z kolei oznacza, że algorytm może mierzyć, jak dobrze treść utworu obejmuje określony temat.

Innymi słowy, Google może zmierzyć autorytet tematyczny Twojego fragmentu treści.

Oto kilka sposobów, aby upewnić się, że Twoje treści mają wysoki autorytet tematyczny:

Zrób trochę analizy tematu. Spójrz na pięć najlepszych wyników wyszukiwania dla swojego kluczowego słowa kluczowego i zanotuj tematy i podtematy, które obejmują te strony internetowe. Postaraj się, aby Twoje treści obejmowały więcej tych tematów i podtematów niż jakakolwiek inna treść

Twórz klastry tematyczne. Napisz podstawowy artykuł, który szczegółowo omawia dany temat. A następnie napisz artykuły „satelitarne”, które bardziej szczegółowo omawiają podtematy.

Możesz na przykład napisać główny artykuł o brytyjskich samolotach myśliwskich z okresu II wojny światowej. A potem mógłbyś napisać artykuł satelitarny o Spitfire'ach, inny artykuł o Hurricane'ach, inny o Glosterach Gladiatorach i tak dalej.

Artykuły o satelitach na temat poszczególnych samolotów myśliwskich zbudują autorytet twojego głównego artykułu.

Korzystaj z automatycznych sugestii Google. Zacznij wpisywać swoje kluczowe słowo kluczowe w Google i zwróć uwagę na odmiany długiego ogona, które wymyśla Google. To są wszystkie podtematy, które należą do twojego głównego tematu. Spróbuj umieścić te podtematy jako nagłówki w swoim artykule.

Zrób to samo z Google „Ludzie też pytają” (zwykle jedna trzecia w dół strony wyników) i „Pokrewnymi wyszukiwaniami” Google (u dołu strony wyników) – są to wszystkie powiązane tematy lub podtematy. Umieść je pod nagłówkami, po których następuje kilka akapitów, a zwiększysz autorytet swojego artykułu.

Google: nie ma czegoś takiego jak słowa kluczowe LSI

Nie mogę zakończyć tego artykułu bez zaadresowania tweeta Johna Muellera z lipca 2019 roku.

Oto on:

Nie ma czegoś takiego jak słowa kluczowe LSI — każdy, kto mówi inaczej, jest w błędzie, przepraszam.
— John (@JohnMu) 30 lipca 2019 r.

Co z tym zrobić?

Po pierwsze, nie powiedział, że Google nie używa ukrytego indeksowania semantycznego. Po drugie, mógł po prostu sprzeciwić się terminologii „ukryte semantyczne słowa kluczowe”.

Ale czy istnieje grupa powiązanych słów, które skupiają się razem w przewidywalny wzór dla tematu, o którym piszesz? I czy Google używa tych klastrów słów do identyfikacji tematów?

Jestem gotów postawić na to!

Wniosek

Utajone indeksowanie semantyczne to matematyczna metoda rozumienia znaczenia słów poprzez badanie wzorców w sposób grupowania słów w treści tekstu.

Chociaż nie ma twardych dowodów na to, że wyszukiwarki go używają, wydaje się bardziej niż prawdopodobne, że to robią. Wyszukiwarki, takie jak Google, prawdopodobnie używają ukrytego indeksowania semantycznego do zrozumienia kontekstu i mapowania tematów i podtematów.

Autorytet tematyczny zastępuje gęstość słów kluczowych jako czynnik rankingowy. Zrozumienie ukrytego indeksowania semantycznego pomoże Ci zbudować autorytet tematyczny dla Twoich artykułów i witryny oraz uzyskać wyższą pozycję w wynikach wyszukiwania.

Powiązane artykuły

Czym są słowa kluczowe LSI (łatwy sposób na zwiększenie SEO)
Czym są klastry tematyczne i dlaczego poprawią Twoje SEO
Jak stworzyć strukturę silosu na swojej stronie internetowej (ilustrowany przewodnik)