Apa itu Pengindeksan Semantik Laten? 7 Hal Yang Perlu Anda Ketahui

Diterbitkan: 2020-03-13

Ingin tahu apa itu pengindeksan semantik laten?

Ada banyak kebingungan di sekitar LSI. Dan bahkan kontroversi. Dalam artikel ini, saya menjelaskan apa itu, bagaimana mesin pencari menggunakannya, dan bagaimana Anda dapat menggunakannya untuk mendapatkan peringkat lebih tinggi dalam hasil pencarian.

Tapi pertama-tama…

what is latent semantic indexing
Daftar isi
1. Apa itu Pengindeksan Semantik Laten?
2. Analisis Kata Kunci vs Pengindeksan Semantik Laten
3. Pengindeksan Semantik Laten dan Otoritas Topikal
4. Pengindeksan Semantik Laten dan Otoritas Topikal
Otoritas Topik Mengalahkan Otoritas Domain
Situs Web Juga Memiliki Otoritas Topik
5. Pengindeksan Semantik Laten dan Analisis Vektor
6. Apakah Google Menggunakan Pengindeksan Semantik Laten?
Pengindeksan Semantik Laten sebagai 'Teknologi Lama'
Aplikasi Paten Google 2009
7. Bagaimana LSI Dapat Membantu Anda Berperingkat Lebih Baik Di Google?
Google: Tidak Ada Kata Kunci LSI
Kesimpulan
Artikel Terkait

1. Apa itu Pengindeksan Semantik Laten?

Jadi apa sebenarnya pengindeksan semantik laten?

Pengindeksan Semantik Laten adalah metode matematika untuk menemukan pola dalam cara kata-kata mengelompok bersama dalam konten online. Informasi tersebut kemudian diindeks sehingga dapat digunakan untuk menjawab pertanyaan.

Dengan kata lain, pengindeksan semantik laten mempelajari kemunculan bersama kata-kata. Dengan melakukan itu, ia menemukan hubungan tersembunyi (laten) antara kata-kata yang pada gilirannya memungkinkannya untuk memahami makna (semantik).

Pengindeksan semantik laten merupakan langkah maju yang besar untuk bidang pemahaman teks karena memperhitungkan fakta bahwa arti kata-kata berubah tergantung pada konteksnya.

Berikut beberapa contohnya:

  • Lengan ditekuk di siku.
  • Jerman menjual senjata ke Arab Saudi.
  • Cari solusi di kepala Anda.
  • Panaskan larutan hingga 75 ° Celcius.
  • Kunci rusak di kunci.
  • Masalah utamanya bukanlah kualitas tetapi kuantitas.

Di jantung pengindeksan semantik laten adalah teori yang disebut Hipotesis Distribusi . Menurut teori ini, kata-kata yang muncul dalam konteks yang sama cenderung memiliki makna yang serupa. Seperti yang dikatakan oleh seorang ahli bahasa: "Anda akan tahu sebuah kata dari perusahaan yang disimpannya."

Singkatnya, kata-kata yang memiliki konteks serupa cenderung memiliki makna yang serupa.

"Kamu akan tahu sepatah kata pun dari perusahaan yang dipegangnya."


JR Firth, 1957

2. Analisis Kata Kunci vs Pengindeksan Semantik Laten

Jadi bagaimana ini berhubungan dengan mesin pencari?

Pada akhir 1990-an, ketika mesin pencari pertama muncul, kepadatan kata kunci adalah satu-satunya ukuran relevansi yang tersedia. Semakin sering kata kunci muncul di konten, semakin relevan dengan permintaan pencarian.

Tentu saja, kepadatan kata kunci gagal memahami konteks. Dan itu juga mudah untuk dimanipulasi. Situs web akan mendapat peringkat tinggi dalam hasil pencarian dengan memasukkan konten mereka dengan kata kunci tertentu.

Tetapi ketika pengindeksan semantik laten muncul di tempat kejadian, isian kata kunci tidak lagi efektif.

Mengapa?

Karena dengan pengindeksan semantik laten, mesin pencari tidak mencari satu kata kunci – mereka mencari pola kata kunci .

Dengan kata lain: mesin pencari bergerak menjauh dari analisis kata kunci menuju otoritas topikal .

3. Pengindeksan Semantik Laten dan Otoritas Topikal

Dengan mengidentifikasi pola dalam cara kata-kata mengelompok bersama dalam konten online, pengindeksan semantik laten mampu mengidentifikasi kelompok kata yang membentuk topik dan sub-topik.

Akibatnya, topik apa pun yang Anda tulis, mesin pencari tahu kelompok kata apa yang terkait dengan topik atau sub-topik tersebut . Dan itu berarti bahwa mesin pencari dapat mengukur otoritas topikal dari sebuah konten.

Di masa lalu (1990-an hingga ~ 2005) Anda dapat menentukan peringkat dalam hasil pencarian dengan menekankan satu kata kunci.

Tetapi untuk menentukan peringkat sekarang, Anda perlu menunjukkan bahwa konten Anda memiliki otoritas topikal. Dan itu berarti menggunakan seluruh kelompok kata yang telah diidentifikasi dengan topik Anda melalui pengindeksan semantik laten.

4. Pengindeksan Semantik Laten dan Otoritas Topikal

Otoritas Topik Mengalahkan Otoritas Domain

Otoritas topikal menjadi faktor peringkat utama untuk mesin pencari. Di Google, misalnya, Anda dapat mengungguli situs web dengan otoritas domain yang jauh lebih tinggi (yaitu situs web dengan profil tautan yang jauh lebih kuat) dengan membuat konten yang memiliki otoritas topikal yang sangat tinggi.

Ketika otoritas domain saya baru berusia 24 tahun, saya biasa mengungguli situs web dengan DA di tahun 80-an dan 90-an hanya dengan membuat konten dengan otoritas topikal yang tinggi.

Situs Web Juga Memiliki Otoritas Topik

Sampai sekarang, saya telah berbicara tentang otoritas topikal yang berkaitan dengan satu halaman web atau satu posting blog.

Tetapi situs web itu sendiri memiliki otoritas topikal. Dan mesin pencari seperti Google sudah memiliki gagasan yang sangat bagus tentang otoritas topik situs web Anda.

Misalnya, jika semua yang Anda tulis adalah musik jazz tahun 1930-an, situs web Anda akan memiliki otoritas topik yang sangat tinggi tentang topik itu. Ketika Anda mempublikasikan artikel tentang topik itu, halaman web Anda akan berperingkat sangat tinggi. Kemungkinan Anda akan mengungguli situs web dengan otoritas domain yang lebih tinggi.

Tetapi jika situs web Anda mencakup setiap genre dan era jazz yang pernah ada, halaman web Anda tentang jazz tahun 1930-an mungkin tidak akan mendapat peringkat setinggi artikel situs web lain.

5. Pengindeksan Semantik Laten dan Analisis Vektor

Kami telah berbicara banyak tentang pengindeksan semantik laten. Tapi itu bukan satu-satunya alat yang digunakan komputer untuk mencoba memahami arti kata.

Ada juga yang namanya analisis vektor.

Jadi apa itu analisis vektor jika diterapkan pada kata-kata?

Vektor kata adalah deretan nilai matematika yang terkait dengan satu kata. Setiap nilai dalam baris menangkap dimensi makna kata.

Berikut ini contohnya:

latent semantic indexing

(Sumber)

Setiap nomor dalam baris mencoba untuk merangkum arti kata menurut salah satu dari empat vektor yang berbeda (binatang, peliharaan, hewan peliharaan, berbulu).

Perbedaan antara pengindeksan semantik laten dan vektor kata adalah bahwa LSI adalah model berbasis hitungan – ini hanya menghitung berapa kali kata muncul dalam konteks tertentu. Tetapi vektor kata adalah model berbasis prediksi – mereka mencoba memprediksi arti kata, berdasarkan analisis vektor.

Misalnya, melalui analisis vektor, algoritme Google "memahami bahwa Paris dan Prancis terkait dengan cara yang sama Berlin dan Jerman (ibu kota dan negara), dan tidak seperti Madrid dan Italia"

6. Apakah Google Menggunakan Pengindeksan Semantik Laten?

Disinilah kontroversi bermula...

Pengindeksan Semantik Laten sebagai 'Teknologi Lama'

Akhir-akhir ini, sejumlah artikel muncul secara online mengklaim bahwa Google tidak menggunakan pengindeksan semantik laten. Beberapa dari mereka melangkah lebih jauh dan mengklaim bahwa memahami cara kerja LSI tidak akan membantu SEO Anda.

Tentu saja, tidak ada seorang pun di luar Google yang tahu persis apa yang dilakukan algoritme Google.

Tapi mari kita lihat kemungkinan (atau sebaliknya) bahwa Google menggunakan pengindeksan semantik laten.

Beberapa berpendapat bahwa karena LSI dikembangkan pada 1980-an, itu adalah 'teknologi lama' dan oleh karena itu Google tidak mungkin menggunakan LSI dalam algoritmenya.

Ada masalah dengan argumen ini.

Tanggal ditemukannya LSI tidak relevan dengan apakah itu digunakan oleh Google saat ini.

Memang, tanggal penemuan teknologi apa pun tidak ada hubungannya dengan apakah kita masih menggunakannya sampai sekarang.

Wilhelm Conrad Roentgen, discoverer of X rays

Wilhelm Conrad Roentgen, penemu sinar-x

(Sumber)

Misalnya, sinar-x ditemukan pada tahun 1895 (oleh Wilhelm Conrad Roentgen, Profesor di Universitas Wuerzburg di Jerman). Jadi sebenarnya mereka adalah 'teknologi lama'.

Tetapi tidak masuk akal bagi rumah sakit untuk mengatakan: "karena sinar-x didasarkan pada teknologi lama, kami tidak akan menggunakannya lagi".

Ini contoh lain, lebih dekat ke rumah.

what is latent semantic indexing

Gottfried Wilhelm Leibniz, penemu sistem biner

(Sumber)

Komputer didasarkan pada sistem biner, di mana semua data direduksi menjadi '0' atau '1'.

Sistem biner ditemukan oleh Gottfried Wilhelm Leibniz, yang mempublikasikan penemuannya dalam makalah tahun 1701 berjudul: 'Essay d'une nouvelle science des nombres'.

Jadi Anda bisa berargumen bahwa komputer modern didasarkan pada penemuan abad ke- 18.

The Turing machine, forerunner of the modern computer

Mesin Turing, cikal bakal komputer modern

(Sumber)

Beberapa orang berdebat untuk asal yang lebih baru . Mereka melacak komputer modern hingga penemuan 'mesin universal' Alan Turing tahun 1936 (sekarang disebut mesin Turing).

Either way, komputer didasarkan pada 'teknologi lama' (1701 atau 1936 tergantung pada perspektif Anda).

Jadi fakta bahwa LSI ditemukan pada tahun 1980-an tidak ada di sini atau di sana – bukan berarti LSI tidak lagi relevan atau berguna.

Aplikasi Paten Google 2009

Seperti yang saya katakan, Google sangat cerdik tentang cara kerja algoritme.

Namun pada Maret 2009, Google mengajukan paten di AS (US 8.145.636 B1). Permohonan paten tersebut diberi judul “Mengklasifikasikan Teks Ke Dalam Kategori Hirarki”.

Google patent application, 2009

Aplikasi ini berisi paragraf ini:

“Teknik klasifikasi teks dapat digunakan untuk mengklasifikasikan teks ke dalam satu atau lebih kategori materi pelajaran. Klasifikasi/kategorisasi teks adalah bidang penelitian dalam ilmu informasi yang berkaitan dengan menetapkan teks ke satu atau lebih kategori berdasarkan isinya. Teknik klasifikasi teks tipikal didasarkan pada pengklasifikasi naif Bayes, tf-idf, semantik laten pengindeksan , mendukung mesin vektor dan jaringan saraf tiruan, misalnya”.

Google patent application, 2009

Jadi, apakah Google menggunakan pengindeksan semantik laten?

Kami tidak tahu pasti.

Tetapi akan luar biasa jika tidak (dan tentu saja bukan karena LSI adalah 'teknologi lama').

7. Bagaimana LSI Dapat Membantu Anda Berperingkat Lebih Baik Di Google?

Ada berbagai cara LSI dapat membantu Anda peringkat lebih tinggi di Google. Yang paling penting adalah menyadari bahwa Google fokus pada topik, bukan kata kunci.

Seperti yang saya sebutkan di atas, melalui pengindeksan semantik laten Google dapat memetakan seluruh topik dan sub-topik yang membentuk topik tersebut. Itu, pada gilirannya, berarti bahwa algoritme dapat mengukur seberapa baik suatu konten mencakup topik tertentu.

Dengan kata lain, Google dapat mengukur otoritas topikal dari konten Anda.

Berikut adalah beberapa cara untuk memastikan bahwa konten Anda memiliki otoritas topik yang tinggi:

Lakukan beberapa analisis topik. Lihat lima hasil pencarian teratas untuk kata kunci fokus Anda dan catat topik dan sub-topik yang dicakup oleh halaman web tersebut. Cobalah untuk memastikan bahwa konten Anda mencakup lebih banyak topik dan sub-topik tersebut daripada konten lainnya

Buat cluster topik. Tulis artikel inti yang mencakup topik secara detail. Dan kemudian tulis artikel 'satelit' yang mencakup sub-topik secara lebih rinci.

Misalnya, Anda dapat menulis artikel inti tentang pesawat tempur Inggris pada Perang Dunia Kedua. Dan kemudian Anda dapat menulis artikel satelit tentang Spitfires, artikel lain tentang Badai, artikel lain tentang Gladiator Gloster, dan seterusnya.

Artikel satelit pada masing-masing pesawat tempur akan membangun otoritas topikal dari artikel inti Anda.

Gunakan Saran Otomatis Google. Mulailah mengetik kata kunci fokus Anda ke Google dan perhatikan variasi ekor panjang yang dihasilkan Google. Itu semua adalah sub-topik yang termasuk dalam topik utama Anda. Cobalah untuk memasukkan sub-topik tersebut sebagai judul dalam artikel Anda.

Lakukan hal yang sama dengan 'Orang Juga Bertanya' Google (biasanya sepertiga bagian bawah halaman hasil) dan 'Penelusuran Terkait' Google (di kaki halaman hasil) – ini semua adalah topik atau sub-topik terkait. Sertakan mereka di bawah judul diikuti oleh beberapa paragraf, dan Anda akan meningkatkan otoritas topik artikel Anda.

Google: Tidak Ada Kata Kunci LSI

Saya tidak dapat menyelesaikan artikel ini tanpa membahas tweet oleh John Mueller pada Juli 2019.

Ini dia:

Apa yang membuat ini?

Yah pertama, dia tidak mengatakan Google tidak menggunakan pengindeksan semantik laten. Dan kedua, dia mungkin hanya keberatan dengan istilah 'kata kunci semantik laten'.

Tetapi apakah ada sekelompok kata terkait yang mengelompok bersama dalam pola yang dapat diprediksi untuk topik yang Anda tulis? Dan apakah Google menggunakan kelompok kata tersebut untuk mengidentifikasi topik?

Saya berani bertaruh!

Kesimpulan

Pengindeksan semantik laten adalah metode matematis untuk memahami arti kata dengan mempelajari pola dalam cara kata-kata dikelompokkan bersama dalam konten teks.

Meskipun tidak ada bukti kuat bahwa mesin pencari menggunakannya, tampaknya mereka melakukannya. Mesin pencari seperti Google mungkin menggunakan pengindeksan semantik laten untuk memahami konteks dan untuk memetakan topik dan sub-topik.

Otoritas topikal menggantikan kepadatan kata kunci sebagai faktor peringkat. Pemahaman tentang pengindeksan semantik laten akan membantu Anda membangun otoritas topikal untuk artikel dan situs web Anda dan peringkat lebih tinggi dalam hasil pencarian.

Artikel Terkait

  • Apa Itu Kata Kunci LSI (Cara Mudah Meningkatkan SEO Anda)
  • Apa Itu Kluster Topik dan Mengapa Mereka Akan Meningkatkan SEO Anda
  • Cara Membuat Struktur Silo di Situs Web Anda (Panduan Bergambar)