Robots.txt คืออะไร มีไว้เพื่ออะไร สำคัญอย่างไรกับการทำSEOดันอันดับ

วิธีเขียนและทดสอบ Robots.txt พร้อมตัวอย่างคำสั่งที่คนทำเว็บไซต์และเอสอีโอควรรู้ บทความนี้จะอธิบายวิธีหาและสร้างไฟล์โรบอทเทก การใช้เครื่องมือ(Tools)ปลั๊กอิน(Plugins)ต่างๆที่ใช้ติดตั้ง ประโยชน์ที่สำคัญรวมถึงข้อควรระวังต่างๆในการทำไฟล์ Robots.txt ตามมาดูกัน

Robot.txt เป็นไฟล์ที่สำคัญในการทำ SEO โดยมีหน้าที่ใช้บอก Search Engine Robots ว่าส่วนไหนของเว็บไซต์ควรถูกค้นหาและส่วนไหนไม่ควรถูกค้นหา โดยทำให้ Search Engine Robots สามารถค้นหาและเก็บเนื้อหาของเว็บไซต์ได้อย่างมีประสิทธิภาพ และป้องกันการค้นหาส่วนของเว็บไซต์ที่ไม่เกี่ยวข้องกับการแสดงผลใน Search Engine ที่อาจจะทำให้เว็บไซต์ไม่สามารถแสดงผลที่ถูกต้องและติดอันดับได้อย่างเต็มประสิทธิภาพ

การใช้ Robot.txt ช่วยป้องกันการเกิดปัญหา Duplicate Content หรือเนื้อหาที่ซ้ำซ้อนกันในหลายๆ หน้าของเว็บไซต์ เนื่องจาก Search Engine Robots จะเก็บเนื้อหาทุกหน้าของเว็บไซต์ที่มีอยู่ หากมีเนื้อหาที่ซ้ำซ้อนกันเป็นจำนวนมาก อาจทำให้ Search Engine Robots เข้าใจว่าเว็บไซต์นั้นไม่มีความเป็นเอกลักษณ์และมีค่าเป็นเพียงสำเนาของเนื้อหาจากเว็บไซต์อื่น (สนใจกด >> รับทำ SEO)

นอกจากนี้ Robot.txt ยังช่วยป้องกันการเข้าถึงข้อมูลที่ไม่ควรถูกเปิดเผย อย่างเช่นไฟล์ข้อมูลสำหรับสมาชิกเท่านั้นหรือเนื้อหาที่ต้องการความเป็นส่วนตัว หรือบอก Search Engine Robots ว่าห้ามเข้าถึงโฟลเดอร์หรือหน้าเว็บไซต์ที่ไม่ต้องการให้ค้นหา

Robots.txt คืออะไร

Robots.txt คือ ไฟล์ที่เราเขียนเอาไว้เพื่อบอก search engine bot ให้เข้าใจว่าต้องไปเก็บข้อมูลหน้าใดของเว็บหรือไม่เก็บข้อมูลหน้าใดบ้าง โดยfileจะอยู่ในรูปข้อความหรือสคริปต์ (Script)

Robots.txt มีความสำคัญอย่างไรบ้าง

ประโยชน์ของการมีไฟล์ Robots.txt นั้นคือ การมีไฟล์ Robots.txt เป็นสิ่งที่สำคัญในการพัฒนาเว็บไซต์ เนื่องจากมีประโยชน์ต่อการทำ SEO และความปลอดภัยของเว็บไซต์ ดังนี้

  • 1. ป้องกันการเข้าถึงส่วนของเว็บไซต์ที่ไม่ต้องการให้ค้นหา

การมีไฟล์ Robots.txt ช่วยป้องกัน Search Engine Robots ไม่ค้นหาส่วนของเว็บไซต์ที่ไม่เกี่ยวข้องกับการแสดงผลใน Search Engine โดยที่ไม่ต้องทำการบล็อกหรือเปลี่ยน URL ซึ่งจะช่วยปรับปรุงประสิทธิภาพของเว็บไซต์ให้ดียิ่งขึ้น

  • 2. ป้องกันการคัดลอกเนื้อหาซ้ำซ้อน

การใช้ Robots.txt ช่วยป้องกัน Search Engine Robots ไม่ค้นหาเนื้อหาที่ซ้ำซ้อนกันในหลายๆ หน้าของเว็บไซต์ ซึ่งอาจทำให้ Search Engine Robots เข้าใจว่าเว็บไซต์นั้นไม่มีความเป็นเอกลักษณ์และมีค่าเป็นเพียงสำเนาของเนื้อหาจากเว็บไซต์อื่น

  • 3. เพิ่มความน่าเชื่อถือของเว็บไซต์

การมีไฟล์ Robots.txt ช่วยเพิ่มความน่าเชื่อถือของเว็บไซต์ เนื่องจากไฟล์นี้แสดงให้เห็นว่าเว็บไซต์ได้ดูแลและปรับปรุงเนื้อหาเว็บไซต์อย่างเหมาะสมและเป็นระเบียบ

  • 4. ป้องกันการแฮ็กเว็บไซต์

การมีไฟล์ Robots.txt ช่วยป้องกันการเข้าถึงข้อมูลที่ไม่ควรถูกเปิดเผยโดยเฉพาะเมื่อเว็บไซต์มีข้อมูลสำคัญที่อยู่ในโฟลเดอร์บางอย่าง การป้องกันเนื้อหาจะช่วยลดความเสี่ยงในการถูกแฮ็กและป้องกันการเปิดเผยข้อมูลที่ไม่ต้องการ

  • 5. ปรับปรุงประสิทธิภาพการเข้าถึงข้อมูล

การปรับแต่งไฟล์ Robots.txt จะช่วยปรับปรุงประสิทธิภาพในการเข้าถึงข้อมูลของเว็บไซต์ ด้วยการตั้งค่าส่วนของเว็บไซต์ที่ต้องการให้ค้นหา จะช่วยลดการเข้าถึงส่วนของเว็บไซต์ที่ไม่จำเป็นและช่วยลดการเข้าถึงเนื้อหาที่ไม่เกี่ยวข้อง

  • 6. ช่วยให้ Search Engine Robots เข้าถึงข้อมูลได้อย่างถูกต้อง

การตั้งค่าไฟล์ Robots.txt ให้เหมาะสมช่วยให้ Search Engine Robots เข้าถึงข้อมูลได้อย่างถูกต้องและมีประสิทธิภาพ และช่วยเพิ่มความน่าเชื่อถือของเว็บไซต์

ข้อควรระวังในการทำ Robots.txt

สิ่งที่สำคัญของการทำ Robots.txt คือ การเขียน script หรือ คำสั่งให้กับ search engine bot ที่จะป้อนคำสั่งให้ file robot ทำหรือไม่ทำอะไร เก็บข้อมูลหรือไม่เก็บข้อมูลตรงส่วนไหนบ้างของเว็บไซต์ ถ้าเราเขียนไฟล์ให้หุ่นยนต์เก็บข้อมูลไม่ถูก ก็อาจจะเกิดการไม่เก็บข้อมูลสำคัญที่เราอยากจะทำอันดับ keyword ในการแสดงผลข้อมูลหน้านั้นๆ นั่นคือข้อควรระวังของการเขียน Robots.txt 

ทั้งนี้ ในเรื่องของการเขียนสคริปต์คำสั่งให้ถูกต้อง เราสามารถตรวจสอบได้ง่าย ๆ ผ่าน Google Search Console ด้วยเครื่องมือ Robots Testing Tool ได้ โปรแกรมนี้จะช่วยตรวจโค้ดที่เราเขียนให้ ดูว่าผิดไวยากรณ์หรือมีข้อผิดพลาดในเชิงตรรกะการทำงานอะไรหรือเปล่า (สนใจกด >> รับสอน SEO)

หากมีข้อผิดพลาดหรือน่าสงสัย Robot Testing Tool จะเตือนจำนวน Errors และ Warnings ให้ แต่ถ้าไม่มีข้อผิดพลาด จะขึ้นเป็น “0” (ศูนย์)

Script และคำสั่งของ Robots.txt ที่ควรรู้

ไฟล์ Robots.txt เป็นไฟล์ที่ใช้ในการบอก Search Engine Robots ว่าส่วนไหนของเว็บไซต์ควรถูกค้นหาและส่วนไหนไม่ควรถูกค้นหา โดยไฟล์นี้มี Script และคำสั่งต่างๆ ที่สำคัญต่อการทำ SEO ดังนี้

1. User-agent

คือ คำสั่งที่ใช้บอก Search Engine Robots ว่า User-agent ต้องการใช้ Robots.txt อย่างไร โดยส่วนใหญ่จะใช้คำสั่ง “User-agent: *” ซึ่งแสดงว่าทุก Search Engine Robots ต้องการใช้ไฟล์ Robots.txt

2. Disallow

คือ คำสั่งที่ใช้บอก Search Engine Robots ว่าส่วนไหนของเว็บไซต์ไม่ควรถูกค้นหา โดยใช้เครื่องหมาย “/” เพื่อระบุหน้าเว็บไซต์หรือโฟลเดอร์ที่ไม่ต้องการให้ค้นหา ตัวอย่างเช่น “Disallow: /admin” จะไม่อนุญาตให้ Search Engine Robots เข้าถึงโฟลเดอร์ admin บนเว็บไซต์

3. Allow

คือ คำสั่งที่ใช้บอก Search Engine Robots ว่าส่วนไหนของเว็บไซต์ควรถูกค้นหา โดยใช้เครื่องหมาย “/” เพื่อระบุหน้าเว็บไซต์หรือโฟลเดอร์ที่ต้องการให้ค้นหา ตัวอย่างเช่น “Allow: /products” จะอนุญาตให้ Search Engine Robots เข้าถึงโฟลเดอร์ products บนเว็บไซต์

4. Sitemap

คือ คำสั่งที่ใช้บอก Search Engine Robots ว่ามีไฟล์ Sitemap อยู่ที่ไหน เพื่อช่วยให้ Search Engine Robots สามารถเข้าถึงและดาวน์โหลดไฟล์ Sitemap ได้อย่างง่ายดาย ตัวอย่างเช่น “Sitemap: http://www.example.com/sitemap.xml” จะแสดงว่าไฟล์ Sitemap อยู่ในโดเมน http://www.example.com/ และชื่อไฟล์เป็น sitemap.xml

5. Crawl-delay

คือ คำสั่งที่ใช้บอก Search Engine Robots ว่าต้องมีการหน่วงเวลาก่อนที่จะค้นหาเนื้อหาของเว็บไซต์ โดยค่าตัวเลขที่ต้องการหน่วงเวลาจะต้องระบุเป็นวินาที

ตัวอย่างเช่น “Crawl-delay: 10” จะแสดงให้ Search Engine Robots รอเวลา 10 วินาทีก่อนที่จะเข้าถึงเนื้อหาในเว็บไซต์

Crawl-delay: 10 หมายถึงอะไร

Crawl-delay:10 หมายความตรงตัวได้เลยว่า เป็นคำสั่งเพื่อการหน่วงเวลาก่อนการเก็บข้อมูลของเว็บไซต์ หรือก็คือให้บอทรอก่อน 10 วินาทีก่อนที่เข้าถึงเนื้อหาเว็บไซต์นั่นเอง โดยหากเปลี่ยนเวลาที่จะหน่วงสามารถกำหนดได้ด้วยตัวเลขด้านหลัง มีหน่วยเป็นวินาที หรือสามารถเลื่อนปรับได้ใน Search Console

6. Host

คือ คำสั่งที่ใช้บอก Search Engine Robots ว่าหน้าเว็บไซต์หรือโฟลเดอร์ที่ต้องการให้ค้นหาอยู่บนโดเมนใด โดยใช้เครื่องหมาย “:” เพื่อระบุชื่อโดเมน ตัวอย่างเช่น “Host: www.example.com” จะบอก Search Engine Robots ว่าหน้าเว็บไซต์หรือโฟลเดอร์ที่ต้องการให้ค้นหาอยู่บนโดเมน www.example.com

หมายเหตุ : /wp-admin/: คำสั่งนี้บ่งบอกว่า Crawler ไม่สามารถเข้าถึงได้ในส่วนนี้ได้

(*) หมายถึงบอทของเสิร์ชเอนจิ้นทุกตัว

ตัวอย่างคำสั่ง Robots.txt ที่สำคัญ
  • คำสั่งนี้หมายถึงไม่อนุญาตให้เก็บข้อมูล

User-agent: *

Disallow: /

  • คำสั่งนี้คืออนุญาตให้เก็บข้อมูลเฉพาะบอทของ Google เท่านั้น

User-agent: Googlebot-news

Allow: /

User-agent: *

Disallow: /

  • คำสั่งไม่อนุญาตให้เก็บข้อมูลในหน้า Directory และเนื้อหาในหน้านั้นๆ

User-agent: *

Disallow: /calendar/

Disallow: /junk/

Disallow: /books/fiction/contemporary/

  • คำสั่งนี้หมายถึง ไม่อนุญาตให้เก็บข้อมูลในหน้าเว็บเพจนี้

User-agent: *

Disallow: /useless_file.html

Disallow: /junk/other_useless_file.html

  • คำสั่งการบล็อกรูปภาพแบบเจาะจงไม่ให้บอทของ Google เก็บข้อมูล

User-agent: Googlebot-Image

Disallow: /images/dogs.jpg

  • คำสั่งการบล็อกรูปภาพทั้งหมดไม่ให้บอทของ Google เก็บข้อมูล

User-agent: Googlebot-Image

Disallow: /

วิธีหาไฟล์ Robots.txt ทำยังไง

หากต้องการจะตรวจหาว่า เว็บของเรามีการทำสคริปต์ Robots.txt หรือไม่ก็สามารถค้นหาได้โดยนำ /robots.txt ไปไว้ด้านหลัง URL ของเว็บที่โดเมนหลักหรือหน้าแรกของเว็บเสมอ เช่น www.example.com/homepage/robots.txt ก็จะเห็นไฟล์สคริปต์ที่ได้สร้างเอาไว้ แต่หากไม่พบอะไรเลยก็แปลได้ว่าเว็บคุณยังไม่ได้ทำ Robots.txt นั่นเอง (สนใจกด >> รับดูแลเว็บไซต์ wordpress)

วิธีทดสอบไฟล์ Robots.txt

เครื่องมือตรวจเช็คไฟล์ Robots.txt

สำหรับการทดสอบ Robots.txt ที่เราใส่ลงไปนั้นสามารถทำได้โดยการใช้เครื่องมือทดสอบ Robots.txt จาก Google ได้ ในการทดสอบเครื่องมือตัวนี้จะทำตัวเหมือนเป็นบอทของ Google เข้าไปรวบรวมข้อมูลเพื่อตรวจสอบไฟล์ Robots.txt แล้วยืนยันด้านการใช้งานว่าผลเป็นอย่างไร

คุณสามารถตรวจเช็คไฟล์ robots.txt บนเว็บของคุณผ่านเครื่องมือนี้ได้เลย robots.txt Tester

  • กดเลือก Property ในลิสต์
  • เข้าไปทดสอบได้ที่ Robots.txt
  • ผลการทดสอบก็จะออกมาให้ดูว่ามีโค้ดไหนที่ใช้ได้หรือใช้ไม่ได้บ้าง

หมายเหตุ : คุณจะใช้เครื่องมือได้ เว็บของคุณต้องเชื่อมต่ออยู่บน Google search console ไว้ก่อนนะ

วิธีการสร้างไฟล์ Robots.txt และแก้ไขไฟล์

เมื่อเรารู้แล้วว่า ต้องการเขียนกฎอะไรบอก Crawl Bot ของ Search Engine บ้าง ทีนี้ เรามาดูกันว่า วิธีการสร้างไฟล์โรบอทหรือ Robots.txt นั้น ทำอะไรได้บ้าง ซึ่งก็มี 2 วิธีด้วยกัน ดังนี้ คือ

1. วิธีสร้างไฟล์​ Robots.txt ไปวางในเว็บไซต์ด้วยตัวเอง

เขียนไฟล์โรบอทหรือ Robots.txt ทดไว้ในโปรแกรม Notepad (Windows) หรือ TextEdit (Mac) ตามคำสั่งที่เราต้องการ ส่วนวิธีนำไปฝังไว้ในเว็บไซต์ ถ้ามี Developer ช่วยดูแลก็บอกเขาได้ หรือถ้าจะไปใส่เอง สามารถทำได้ตามนี้

  • เปิด ControlPanel หรือหน้าต่างจัดการ Hosting ของเรา (เข้าผ่านเว็บ Hosting)
  • ไปที่ “File” และเลือกคลิกที่ “File Manager”
  • จากนั้นให้เลือกเว็บโดเมนที่เราต้องการนำ Robots.txt ไปฝัง
  • สร้างโฟลเดอร์ชื่อว่า “robots.txt” (ต้องชื่อนี้เท่านั้นนะ) โดยให้สร้างไว้ในโฟลเดอร์ /public_html/
  • เมื่อสร้างเสร็จ ให้คลิกขวาที่โฟลเดอร์ที่เราเพิ่งสร้าง เลือก “Edit”
  • จะได้หน้าต่างขาว ๆ ขึ้นมา ให้ก๊อปปี้ Robots.txt ที่เราเขียนไว้ มาวาง จากนั้นกด “Save” เป็นอันเสร็จสิ้น

2. วิธีการสร้างไฟล์ Robots.txt โดยใช้ปลั๊กอิน

หากคุณใช้งาน WordPress และมีการใช้ปลั๊กอินสำหรับการทำ SEO เช่น Yoast หรือ All in One หรือ Rankmath ปลั๊กอินเหล่านี้จะทำหน้าที่สร้างไฟล์ Robots.txt ให้เองโดยอัตโนมัติ และเราก็สามารถเข้าไปแก้ไขไฟล์ Robots.txt เองได้เลย

a. วิธีแก้ไขไฟล์ผ่านปลั๊กอิน Yoast

  1. เข้าไปที่หลังบ้านเว็บดูที่เมนู Yoast SEO
  2. คลิกที่คำว่า Tools
  3. คลิกต่อไปที่หัวข้อ File editor
  4. ถ้าเว็บเราไฟล์ Robots.txt ยังไม่ได้ถูกสร้างเอาไว้ เราจะเจอปุ่มคำว่า Create robots.txt file ก็คลิกสร้างได้เลย คุณสามารถเข้าไปแก้ไขค่าเริ่มต้นเพิ่มเติมสิ่งที่ต้องการเองได้เลย

หมายเหตุ : หากเว็บของใครเข้าไปที่เมนู tools ของ Yoast แล้วไม่เจอหัวข้อ File editor แสดงว่า โฮสติ้งที่เราใช้เขาบล็อกเอาไว้ เพื่อความปลอดภัยของเว็บ หากเราต้องการจะสร้างไฟล์ หรือแก้ไข ไฟล์ Robots.txt ต้องไปแก้ไขที่โฟล์เดอร์ File manager บนโฮสติ้ง หรือติดต่อให้ทางโฮสช่วยแก้ไขไฟล์ให้เราแทน (สนใจกด >> รับทำเว็บไซต์ รับออกแบบเว็บไซต์)

b. ปลั๊กอิน All In One SEO

อีก 1 plugin ที่นิยม สำหรับคนที่ทำเว็บไซต์ด้วย WordPress นั่นคือปลั๊กอิน All In One SEO ได้ โดยเราหลังจากที่เราติดตั้งแล้วและเข้าไปยังส่วนของหลังบ้านของเวิร์ดเพลสเพื่อที่จะปรับ เลือกส่วนของปลั๊กอินจะต้องติดตั้งปลั๊กอินตัวนี้กับ WordPress ของเราก่อน โดยเข้าไปยังหลังบ้าน WordPress และเลือกหัวข้อเมนู Plug-in จากนั้นค้นหา plugin All In One SEO ให้ Install เมื่อเรียบร้อยให้กด Activate

ทีนี้เรามาดูวิธีเขียนไฟล์ Robots.txt ด้วยปลั๊กอินตัวนี้กัน

  • เลือกเมนู All in One SEO ในแถบเมนูหลังบ้านของ WordPress
  • เลือกเมนูย่อย “Tools”
  • หาส่วนที่เขียนว่า “Enable Custom Robots.txt” และกด Activate ปลั๊กอินจะปรากฏช่องสำหรับเขียนไฟล์โรบอทขึ้นมาให้
  • ใส่ User Agent, Rule (เลือกระหว่าง Allow กับ Disallow), และ Directory Path หรือ URLs ที่เราต้องการ
  • หากต้องการเพิ่ม Rule ให้กด “Add Rule” เมื่อเสร็จกด “Save Change” เป็นอันเรียบร้อย

c. ปลั๊กอิน Rank Math

มีหลายวิธีในการสร้างแผนผังไซต์ในไฟล์ Robots.txt เราจะมาแนะนำวิธีที่ดีที่สุดอีกหนึ่งวิธี เพื่อให้มั่นใจว่า Google จะมองเห็นแผนผังเว็บไซต์ของคุณ นั่นก็คือการเพิ่ม sitemap ลงใน Robots.txt นั่นเอง เราจะนำเสนอวิธีการเพิ่ม sitemap robots txt โดยใช้ปลั๊กอิน Rank Math คุณสามารถเริ่มทำตามได้ ด้วยขั้นตอนง่ายๆ ดังนี้

  • เข้าสู่ระบบ WordPress และติดตั้งปลั๊กอิน Rank Math
  • ไปยัง Edit Robot.txt
  • ไปที่ไฟล์ Robots.txt ใน Rank Math จากนั้นให้ไปที่ WordPress Dashboard > Rank Math > General Settings > Edit robots.txt
เพิ่มแผนผัง Sitemap URL ใน Robots.txt

Rank Math สามารถเพิ่มชุดกฎ (รวมถึง Sitemap) ลงในไฟล์ Robots.txt ได้โดยอัตโนมัติ โดยคุณสามารถเข้ามาแก้ไข หรือเพิ่มโค้ดได้ตามต้องการ

ในขั้นตอนนี้ ให้คุณใส่ URL ของ sitemap ซึ่งแต่ละเว็บไซต์จะมี URL ที่แตกต่างกัน ตัวอย่างเช่น หากเว็บไซต์ของคุณคือ example.com URL ของ sitemap นี้จะเป็น example.com/sitemap.xml นั่นเอง

แต่ในกรณีที่คุณมีแผนผังเว็บไซต์มากกว่าหนึ่งรายการ คุณสามารถใส่ URL เพิ่มได้ตามความต้องการ อาทิเช่น (สนใจกด >> รับทำเว็บไซต์ wordpress)

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/post-sitemap.xml
Sitemap: https://example.com/page-sitemap.xml
Sitemap: https://example.com/category-sitemap.xml
Sitemap: https://example.com/video-sitemap.xml

บันทึกการเปลี่ยนแปลงของคุณ

เมื่อคุณเพิ่ม URL แผนผังเว็บไซต์ลงในไฟล์ Robots.txt แล้วจากนั้นให้กดปุ่ม บันทึก หรือ Save Changes เท่านี้ก็เป็นอันเสร็จเรียบร้อย

การปิดกันบอทบน Robots.txt กับการปิดกันบอทด้วยคำสั่ง Noindex แตกต่างกันอย่างไร

การทำ Disallow บนไฟล์ Robots.txt และการใช้คำสั่ง Noindex มีเป้าหมายเดียวกัน คือ ทำหน้าที่ปิดกันบอทจากเครื่องมือค้นหาต่างๆ ไม่ให้เข้ามาเก็บข้อมูล แต่สิ่งที่ทำให้การปิดกั้นทั้ง 2 อย่างนี้มีความแตกต่างกัน ก็คือ

การเลือกใช้คำสั่งบน ไฟล์ Robots.txt มุ่งเน้นปิดกันบอทแบบทั้งระบบ แบบว่าตั้งค่าที่เดียว ปิดกันทั้งหมดในจุดที่เราต้องการ เช่น ปิดกันการเก็บข้อมูลภายในบางโฟลเดอร์ บนเว็บไซต์

ส่วนการใช้คำสั่ง Noindex เป็นการปิดกันบอท ไม่ให้มาเก็บข้อมูลในส่วนที่เป็นเนื้อหาบนเว็บหน้าเว็บ หน้าใดหน้าหนึ่งเป็นหลัก และเราสามารถตั้งค่าที่หน้านั้นๆ ได้เลย หน้าใครหน้ามัน

 

สรุป

การทำ Robots.txt เหมือนการแจ้งให้ search engine bot เข้าใจโครงสร้างและเนื้อหาของเว็บไซต์ว่าควรจะเก็บหรือไม่เก็บเนื้อหาใดไปแสดงผล เพราะ bot จะเข้ามาเก็บข้อมูล และจัดการข้อมูลไปแสดงผลตามคำค้นหาทั้งหมดของข้อมูลเว็บเราถ้าไม่มีการแจ้งให้ทราบ

หากเราไม่เขียนscriptแจ้ง บอทจะเข้าไปค้นทุกอย่าง ซึ่งรวมถึงข้อมูลส่วนตัว/ข้อมูลที่ไม่อยากเผยแพร่ เช่น รายชื่อสมาชิก เอกสารภายใน ข้อมูลส่วนตัวของสมาชิกบนเว็บไซต์ ฯลฯ (สนใจกด >> รับทำเว็บไซต์ E-Commerce)

โดยที่สำคัญ Robots.txt จำเป็นต่อการทำ SEO มาก โดย Robots.txt ป้องกันไม่ให้ Search Engine Bot เข้ามาค้นและจัดทำ Index เอาหน้าเพจที่เราไม่ต้องการไปแสดงเป็นผลลัพธ์การค้นหา เช่น ป้องกันการ Index ไฟล์รูปภาพหรือไฟล์เอกสารที่เราไม่ต้องการให้ไปปรากฏบนหน้าเสิร์ช (SERPs) หน้าเสิร์ชคอนเทนต์บนเว็บไซต์ หน้าเพจที่สร้างขึ้นมาอัตโนมัติบนเว็บไซต์

ประโยชน์ของการมีไฟล์ Robots.txt

หน้าที่หลักของ file Robots.txt ที่สำคัญ คือ การแจ้งบอทว่า file ไหน หน้าเว็บไหนที่เราต้องการหรือไม่ต้องการให้ bot มาเก็บข้อมูล โดยทุกเว็บไซต์ต้องทำโรบอทเท็กซ์ (Allow or Disallow) ซึ่งจะช่วยในการเพิ่มอันดับในการทำ SEO และช่วยรักษาข้อมูลที่ต้องการเก็บเป็นความลับ

  • ช่วยป้องกัน Duplicate Content ไม่ให้ไปแสดงบนหน้าเสิร์ชเดียวกัน
  • ช่วยป้องกันไฟล์หรือข้อมูลที่เป็นความลับหรือข้อมูลภายในของเว็บไซต์ เช่น ข้อมูลสมาชิก ไฟล์เอกสารของสมาชิกเว็บไซต์
  • ช่วยป้องกันไม่ให้หน้าที่ถูกสร้างขึ้นโดยอัตโนมัติของปลั๊กอิน (Plug-in) หรือระบบเว็บไซต์ถูก Index แล้วไปแสดงบนหน้า SERPs (ซึ่งจะทำให้ Google มองว่า เว็บเรามีหน้าเพจคุณภาพต่ำหลายหน้า เช่น หน้า Thank You เป็นต้น คะแนน Performance ของเว็บไซต์ก็จะลดต่ำลง)
  • ช่วยให้บอทเข้าถึงแผนผังเว็บไซต์ (Sitemap) ได้ง่ายขึ้น เพราะ Robots.txt เป็นสคริปต์แรกที่บอทจะเข้ามาอ่าน หากเขียน Sitemap ไว้ด้วย ก็มั่นใจได้ว่าบอทจะรู้ที่อยู่ Sitemap ของเว็บไซต์เรา
  • ช่วยป้องกันไม่ให้บอททำ Index ไฟล์บนเว็บไซต์ที่เราไม่ต้องการ เช่น ไฟล์รูปภาพต่าง ๆ ไฟล์เอกสาร PDFs หรือไฟล์อื่น ๆ ที่ไม่ต้องการให้คนเข้าถึงผ่านการค้นหา
  • ช่วยลดภาระการ Crawl เว็บไซต์ของบอท ทำให้บอทเก็บข้อมูลได้ดีขึ้น มีความเจาะจงมากขึ้น ส่งผลให้เว็บไซต์มีทิศทางและมี Web Performance ที่ดีขึ้น

ใส่ความเห็น

อีเมลของคุณจะไม่แสดงให้คนอื่นเห็น ช่องข้อมูลจำเป็นถูกทำเครื่องหมาย *

error: Content is protected !!