การรวบรวมข้อมูลและการจัดทำดัชนี: สิ่งที่คุณต้องรู้

เผยแพร่แล้ว: 2022-09-11

วิธีการเพิ่มคุณภาพและปริมาณการเข้าชมเว็บไซต์ของคุณเรียกว่า SEO (Search Engine Optimization) เป็นกระบวนการเพิ่มประสิทธิภาพหน้าเว็บเพื่อให้ได้อันดับการค้นหาที่สูงขึ้นอย่างเป็นธรรมชาติ คุณเคยสงสัยหรือไม่ว่าเครื่องมือค้นหามีพลังอะไร? กลไกบางอย่างสามารถสแกนเวิลด์ไวด์เว็บอย่างเป็นระบบสำหรับการสร้างดัชนีเว็บหรือการรวบรวมข้อมูลเว็บได้อย่างเป็นระบบ น่าทึ่งมากที่กลไกบางอย่างสามารถสแกนเวิลด์ไวด์เว็บได้อย่างเป็นระบบ

มาดูบทบาทพื้นฐานของ Crawling & Indexing ในการแสดงผลการค้นหาโดยพิจารณาจากแนวโน้ม SEO ที่เพิ่มมากขึ้น

คลาน

Crawling
คลาน

การรวบรวมข้อมูลเป็นกระบวนการที่เสิร์ชเอ็นจิ้นใช้โปรแกรมรวบรวมข้อมูลเว็บเพื่อตรวจหาลิงก์ใหม่ เว็บไซต์ใหม่หรือหน้า Landing Page การอัปเดตข้อมูลที่นำเสนอ ลิงก์ที่ใช้งานไม่ได้ และสิ่งอื่น ๆ โปรแกรมรวบรวมข้อมูลเว็บเรียกอีกอย่างว่า "แมงมุม" "บ็อต" หรือ "แมงมุม" เมื่อบ็อตเข้าชมเว็บไซต์ บอทจะใช้ลิงก์ภายในเพื่อรวบรวมข้อมูลหน้าอื่นๆ ในไซต์

ด้วยเหตุนี้ เหตุผลที่สำคัญที่สุดประการหนึ่งในการทำให้ Google Bot รวบรวมข้อมูลเว็บไซต์ได้ง่ายขึ้นคือการสร้างแผนผังเว็บไซต์ รายการ URL ที่สำคัญสามารถพบได้ในแผนผังเว็บไซต์

เช่น https://iquelab.in/sitemap_index.xml

บอทใช้โมเดล DOM ทุกครั้งที่สำรวจเว็บไซต์หรือหน้าเว็บ (Document Object Model) DOM นี้สะท้อนถึงโครงสร้างต้นไม้เชิงตรรกะของเว็บไซต์

รหัส HTML และ Javascript ที่แสดงผลของหน้าเรียกว่า DOM แทบจะเป็นไปไม่ได้เลยที่จะรวบรวมข้อมูลเว็บไซต์ทั้งหมดในคราวเดียว และอาจใช้เวลานาน ด้วยเหตุนี้ Google Bot จึงรวบรวมข้อมูลเฉพาะส่วนที่สำคัญที่สุดของไซต์ ซึ่งค่อนข้างมีความสำคัญในการวัดสถิติเฉพาะที่สามารถช่วยจัดอันดับเว็บไซต์เหล่านั้นได้

เพิ่มประสิทธิภาพเว็บไซต์สำหรับ Google Crawler

บางครั้ง เราพบสถานการณ์ที่ Google Crawler ไม่ได้จัดทำดัชนีหน้าที่สำคัญบางหน้าบนเว็บไซต์ ด้วยเหตุนี้ เราจึงต้องสั่งเครื่องมือค้นหาว่าจะรวบรวมข้อมูลไซต์อย่างไร ในการดำเนินการดังกล่าว ให้สร้างไฟล์ robots.txt และจัดเก็บไว้ในไดเรกทอรีรากของโดเมน

ไฟล์ Robots.txt ช่วยโปรแกรมรวบรวมข้อมูลในการรวบรวมข้อมูลหน้าเว็บอย่างเป็นระบบ ไฟล์ robots.txt แนะนำโปรแกรมรวบรวมข้อมูลว่าควรรวบรวมข้อมูล URL ใด หากบ็อตไม่พบไฟล์ robots.txt บอทจะทำงานการรวบรวมข้อมูลต่อไป นอกจากนี้ยังช่วยในการจัดการงบประมาณการรวบรวมข้อมูลของเว็บไซต์อีกด้วย

องค์ประกอบที่ส่งผลต่อการรวบรวมข้อมูล

เนื่องจากหน้าเข้าสู่ระบบเป็นหน้าที่มีการรักษาความปลอดภัย บอทจะไม่รวบรวมข้อมูลเบื้องหลังแบบฟอร์มการเข้าสู่ระบบหรือหากเว็บไซต์ใดกำหนดให้ผู้ใช้เข้าสู่ระบบ

ข้อมูลช่องค้นหาบนเว็บไซต์ไม่ได้ถูกรวบรวมข้อมูลโดย Googlebot หลายคนเชื่อว่าเมื่อลูกค้าพิมพ์ผลิตภัณฑ์ที่ต้องการลงในช่องค้นหา โปรแกรมรวบรวมข้อมูลของ Google จะรวบรวมข้อมูลเว็บไซต์ โดยเฉพาะอย่างยิ่งสำหรับเว็บไซต์อีคอมเมิร์ซ

ไม่มีการรับประกันว่าบอทจะรวบรวมข้อมูลประเภทสื่อ เช่น ภาพถ่าย ไฟล์เสียง วิดีโอ ข้อความ และอื่นๆ วิธีที่แนะนำคือการรวมข้อความ (เป็นชื่อรูปภาพ) ไว้ในโค้ด HTML>

การปิดบังเครื่องมือค้นหาบอท Opens in a new tab. เป็นการปรากฏของเว็บไซต์สำหรับผู้เยี่ยมชมบางราย (เช่น หน้าที่เห็นกับบอทจะแตกต่างจากผู้ใช้)
โปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาอาจสังเกตเห็นลิงก์ไปยังเว็บไซต์ของคุณจากเว็บไซต์อื่นบนอินเทอร์เน็ตเป็นครั้งคราว ในทำนองเดียวกัน โปรแกรมรวบรวมข้อมูลอาศัยลิงก์ของไซต์ของคุณเพื่อไปยังไซต์เชื่อมโยงไปถึงต่างๆ

หน้าเด็กกำพร้าคือหน้าที่ไม่มีลิงก์ภายในกำหนดไว้ เนื่องจากโปรแกรมรวบรวมข้อมูลไม่สามารถหาวิธีเข้าถึงได้ พวกมันแทบจะมองไม่เห็นบอทในขณะที่มันรวบรวมข้อมูลเว็บไซต์

เมื่อโปรแกรมรวบรวมข้อมูลพบ 'ข้อผิดพลาดที่พบเมื่อเข้ารวบรวมข้อมูล' บนเว็บไซต์ เช่น 404, 500 และอื่นๆ พวกเขาจะหงุดหงิดและละทิ้งหน้าเว็บ คำแนะนำคือให้ใช้ '302 - เปลี่ยนเส้นทาง' หรือ '301 - เปลี่ยนเส้นทางถาวร' เพื่อเปลี่ยนเส้นทางหน้าเว็บชั่วคราว การวางสะพานสำหรับโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาเป็นสิ่งสำคัญ

โปรแกรมรวบรวมข้อมูลเว็บบางส่วน ได้แก่ -

Googlebot

Googlebot เป็นโปรแกรมรวบรวมข้อมูลเว็บ (บางครั้งเรียกว่าแมงมุมหรือหุ่นยนต์) ที่รวบรวมข้อมูลและจัดทำดัชนีเว็บไซต์สำหรับ Google มันเพียงแค่ดึงข้อความที่ค้นหาได้บนเว็บไซต์โดยไม่ต้องตัดสินใดๆ ชื่อนี้เกี่ยวข้องกับโปรแกรมรวบรวมข้อมูลเว็บสองประเภท: ประเภทหนึ่งสำหรับเดสก์ท็อปและอีกประเภทหนึ่งสำหรับอุปกรณ์มือถือ

บิงบอท

Microsoft เปิดตัว Bingbot ซึ่งเป็นบอทอินเทอร์เน็ตในเดือนตุลาคม 2010 โดยทำงานในลักษณะเดียวกับ Googlebot โดยรวบรวมเอกสารจากเว็บไซต์เพื่อให้ข้อมูลที่ค้นหาได้สำหรับ SERP

Slurp Bot

การค้นพบของโปรแกรมรวบรวมข้อมูลเว็บของ Yahoo นั้นสร้างขึ้นโดยบอท Slurp รวบรวมข้อมูลจากเว็บไซต์ของพันธมิตรและปรับแต่งเนื้อหาสำหรับเครื่องมือค้นหาของ Yahoo หน้ารวบรวมข้อมูลเหล่านี้จะตรวจสอบการตรวจสอบสิทธิ์ผู้ใช้ในหน้าเว็บต่างๆ

ไบดัสไปเดอร์

แมงมุมของไป่ตู้เป็นหุ่นยนต์ของเครื่องมือค้นหาของจีน บอทเป็นซอฟต์แวร์ที่รวบรวมข้อมูลที่เกี่ยวข้องกับคำค้นหาของผู้ใช้ เช่นเดียวกับโปรแกรมรวบรวมข้อมูลทั้งหมด จะรวบรวมข้อมูลและจัดทำดัชนีหน้าเว็บของอินเทอร์เน็ตทีละน้อย

Yandex Bot

Yandex เป็นเครื่องมือค้นหาของรัสเซียและโปรแกรมรวบรวมข้อมูลสำหรับเครื่องมือค้นหาที่มีชื่อเดียวกัน ในทำนองเดียวกัน บ็อต Yandex จะรวบรวมข้อมูลหน้าเป็นประจำและบันทึกข้อมูลที่เกี่ยวข้องในฐานข้อมูล ช่วยในการสร้างผลการค้นหาที่ใช้งานง่าย ยานเดกซ์เป็นเสิร์ชเอ็นจิ้นที่ใหญ่เป็นอันดับห้าของโลก โดยมีส่วนแบ่งตลาด 60 เปอร์เซ็นต์ในรัสเซีย

Crawling & Indexing
การรวบรวมข้อมูลและการจัดทำดัชนี

ตอนนี้ มาทำความเข้าใจว่า Google จัดทำดัชนีหน้าเว็บอย่างไร

การจัดทำดัชนี

Indexing
การจัดทำดัชนี

ดัชนีคือชุดของข้อมูลหรือหน้าเว็บทั้งหมดที่จัดทำดัชนีโดยโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหา กระบวนการสร้างดัชนีคือกระบวนการจัดเก็บวัสดุที่ได้รับในฐานข้อมูลดัชนีการค้นหา ข้อมูลที่บันทึกไว้ก่อนหน้านี้จะถูกประเมินเป็นเมตริกอัลกอริทึม SEO เมื่อเทียบกับหน้าเว็บที่คล้ายกันโดยใช้ข้อมูลที่จัดทำดัชนี ความสำคัญของการจัดทำดัชนีไม่สามารถพูดเกินจริงได้เพราะช่วยในการจัดอันดับเว็บไซต์

คุณจะรู้ได้อย่างไรว่า Google จัดทำดัชนีอะไร

หากต้องการดูจำนวนหน้าที่จัดทำดัชนีบน SERP ให้พิมพ์ “site:yourdomain” ลงในช่องค้นหา ซึ่งจะแสดงหน้าทั้งหมดที่ Google จัดทำดัชนีไว้ รวมทั้งหน้า บทความ และรูปภาพ และอื่นๆ

วิธีที่ง่ายที่สุดในการตรวจสอบให้แน่ใจว่า URL ได้รับการจัดทำดัชนีคือส่งแผนผังเว็บไซต์ไปยัง Google Search Console ซึ่งมีรายการของหน้าที่สำคัญทั้งหมด

เมื่อพูดถึงการนำเสนอหน้าที่สำคัญทั้งหมดใน SERP การจัดทำดัชนีเว็บไซต์เป็นสิ่งสำคัญ หาก Googlebot ไม่เห็นเนื้อหา จะไม่มีการจัดทำดัชนี Googlebot แยกวิเคราะห์เว็บไซต์ทั้งหมดออกเป็นหลายรูปแบบ เช่น HTML, CSS และ Javascript การทำดัชนีจะไม่ดำเนินการกับส่วนประกอบที่ไม่สามารถเข้าถึงได้

Google ตัดสินใจว่าจะจัดทำดัชนีอย่างไร

เมื่อผู้ใช้พิมพ์คำค้นหาลงใน Google จะพยายามค้นหาคำตอบที่เกี่ยวข้องมากที่สุดจากไซต์ที่จัดทำดัชนีของฐานข้อมูล Google จัดทำดัชนีข้อมูลโดยใช้ชุดอัลกอริทึมของตนเอง โดยทั่วไปแล้วจะจัดทำดัชนีเนื้อหาใหม่บนเว็บไซต์ที่ Google เชื่อว่าจะปรับปรุงประสบการณ์ของผู้ใช้ ยิ่งคุณภาพของเนื้อหาและคุณภาพของลิงก์บนเว็บไซต์สูงขึ้นเท่าใด การทำ SEO ก็ยิ่งดี

การระบุวิธีที่เว็บไซต์ของเราทำให้เข้าสู่กระบวนการจัดทำดัชนี

เวอร์ชันแคช

Google รวบรวมข้อมูลหน้าเว็บไซต์เป็นประจำ คลิกเครื่องหมาย 'ดรอปดาวน์' ข้าง URL เพื่อดูเวอร์ชันแคชของหน้าเว็บ (ดังแสดงในภาพหน้าจอด้านล่าง)

URL ถูกกำจัด

ใช่! หลังจากสร้างดัชนีบน SERP แล้ว หน้าเว็บสามารถลบออกได้ เป็นไปได้ว่าเว็บไซต์ที่ถูกลบกลับส่งคืนข้อผิดพลาด 404 มีการเปลี่ยนเส้นทาง URL หรือมีลิงก์เสีย เหนือสิ่งอื่นใด แท็ก 'noindex' จะถูกเพิ่มลงใน URL ด้วย

เมตาแท็ก

อยู่ในโค้ด HTML ของส่วน <head> ของไซต์

  • ดัชนี noindex

ฟังก์ชันนี้ระบุให้โปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาทราบว่าหน้าเว็บควรได้รับการจัดทำดัชนีหรือไม่ บอทจะถือว่าเป็นฟังก์ชัน 'ดัชนี' โดยค่าเริ่มต้น เมื่อคุณเลือก 'noindex' คุณกำลังแนะนำให้โปรแกรมรวบรวมข้อมูลลบหน้าออกจาก SERP

  • ติดตาม/ไม่ติดตาม

อนุญาตให้โปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหากำหนดว่าหน้าใดควรได้รับการตรวจสอบและควรส่งผ่านส่วนของลิงก์เท่าใด

นี่คือตัวอย่างโค้ด

< head >< meta name =”robots” content=”noindex, nofollow” /></ head >

หลังจากที่คุณรวบรวมข้อมูลที่จำเป็นทั้งหมดแล้ว ให้ใช้บริการ SEO ขั้นสูงที่จัดทำโดยหน่วยงาน SEO ชั้นนำของ Kerala เพื่อเพิ่มประสิทธิภาพเว็บไซต์ของคุณ เข้าร่วมการสนทนาในส่วนความคิดเห็นด้านล่าง