ข้อห้ามของการจัดทำดัชนีใน robots txt วิธีป้องกันการจัดทำดัชนีหน้าที่จำเป็น
จากผู้เขียน:คุณมีหน้าเว็บบนเว็บไซต์ที่ไม่ต้องการให้เครื่องมือค้นหาเห็นหรือไม่ จากบทความนี้ คุณจะได้เรียนรู้รายละเอียดวิธีการป้องกันการจัดทำดัชนีหน้าเว็บใน robots.txt ไม่ว่าจะถูกต้องหรือไม่ และโดยทั่วไปแล้วจะบล็อกการเข้าถึงหน้าเว็บได้อย่างไร
ดังนั้น คุณจึงต้องป้องกันไม่ให้หน้าเว็บบางหน้าถูกจัดทำดัชนี วิธีที่ง่ายที่สุดในการทำเช่นนี้คือในไฟล์ robots.txt โดยเพิ่มบรรทัดที่จำเป็นลงไป ฉันต้องการทราบว่าเราได้ระบุที่อยู่โฟลเดอร์ที่สัมพันธ์กัน URL ของหน้าเว็บที่ระบุในลักษณะเดียวกัน หรือคุณสามารถป้อนเส้นทางที่แน่นอนได้
สมมติว่าบล็อกของฉันมีหน้าเว็บ 2-3 หน้า ได้แก่ รายชื่อติดต่อ เกี่ยวกับฉัน และบริการของฉัน ฉันไม่อยากให้พวกเขาถูกจัดทำดัชนี ดังนั้นเราจึงเขียนว่า:
ตัวแทนผู้ใช้: * Disallow: /kontakty/ Disallow: /about/ Disallow: /uslugi/
อีกทางเลือกหนึ่ง
เยี่ยมมาก แต่นี่ไม่ใช่วิธีเดียวที่จะบล็อกการเข้าถึงของโรบ็อตในบางหน้า ประการที่สองคือการวางเมตาแท็กพิเศษในโค้ด html โดยปกติแล้ว ให้วางเฉพาะในบันทึกที่จำเป็นต้องปิดเท่านั้น ดูเหมือนว่านี้:
< meta name = "robots" content = "noindex,nofollow" > |
ต้องวางแท็กในคอนเทนเนอร์ส่วนหัวในเอกสาร html เพื่อให้ทำงานได้อย่างถูกต้อง อย่างที่คุณเห็น มันมีพารามิเตอร์สองตัว ชื่อถูกระบุเป็นโรบ็อตและระบุว่าคำแนะนำเหล่านี้มีไว้สำหรับโปรแกรมรวบรวมข้อมูลเว็บ
พารามิเตอร์เนื้อหาต้องมีสองค่า โดยคั่นด้วยเครื่องหมายจุลภาค ประการแรกคือการห้ามหรือการอนุญาตให้จัดทำดัชนีข้อมูลข้อความบนเพจ ประการที่สองคือการบ่งชี้ว่าจะจัดทำดัชนีลิงก์บนเพจหรือไม่
ดังนั้น หากคุณต้องการให้เพจไม่ถูกจัดทำดัชนีเลย ให้ระบุค่า noindex, nofollow กล่าวคือ ห้ามจัดทำดัชนีข้อความ และห้ามไม่ให้ลิงก์ติดตาม ถ้ามี มีกฎอยู่ว่าหากไม่มีข้อความบนเพจ ก็จะไม่ถูกจัดทำดัชนี กล่าวคือ หากข้อความทั้งหมดปิดอยู่ใน noindex ก็ไม่มีอะไรที่จะจัดทำดัชนี ดังนั้นจึงไม่มีสิ่งใดรวมอยู่ในดัชนี
นอกจากนี้ยังมีค่าต่อไปนี้:
noindex, follow – ห้ามการจัดทำดัชนีข้อความ แต่อนุญาตให้ติดตามลิงก์;
ดัชนี nofollow – สามารถใช้ได้เมื่อควรนำเนื้อหาเข้าสู่ดัชนี แต่ควรปิดลิงก์ทั้งหมดในนั้น
ดัชนีติดตาม – ค่าเริ่มต้น ทุกสิ่งได้รับอนุญาต
โรบอต.TXT- มาตรฐานข้อยกเว้นสำหรับโรบ็อต - ไฟล์ในรูปแบบข้อความ .txt เพื่อจำกัดการเข้าถึงเนื้อหาของโรบ็อต ไฟล์จะต้องอยู่ในตำแหน่งรากของไซต์ (ที่ /robots.txt) การใช้มาตรฐานเป็นทางเลือก แต่เครื่องมือค้นหาจะปฏิบัติตามกฎที่มีอยู่ใน robots.txt ตัวไฟล์ประกอบด้วยชุดบันทึกของแบบฟอร์ม
:โดยที่ฟิลด์คือชื่อของกฎ (User-Agent, Disallow, Allow ฯลฯ)
บันทึกจะถูกคั่นด้วยบรรทัดว่างหนึ่งบรรทัดขึ้นไป (ตัวสิ้นสุดบรรทัด: อักขระ CR, CR+LF, LF)
วิธีการกำหนดค่า ROBOTS.TXT อย่างถูกต้อง?
ย่อหน้านี้ระบุข้อกำหนดพื้นฐานสำหรับการตั้งค่าไฟล์ คำแนะนำเฉพาะสำหรับการตั้งค่า ตัวอย่างสำหรับ CMS ยอดนิยม
- ขนาดไฟล์ต้องไม่เกิน 32 kB
- การเข้ารหัสต้องเป็น ASCII หรือ UTF-8
- ไฟล์ robots.txt ที่ถูกต้องต้องมีกฎอย่างน้อยหนึ่งกฎซึ่งประกอบด้วยหลายคำสั่ง แต่ละกฎจะต้องมีคำสั่งต่อไปนี้:
- โรบ็อตใดที่เป็นกฎนี้สำหรับ (คำสั่ง User-agent)
- ทรัพยากรใดที่ตัวแทนนี้มีสิทธิ์เข้าถึง (อนุญาตคำสั่ง) หรือทรัพยากรใดที่ไม่สามารถเข้าถึงได้ (ไม่อนุญาต)
- ทุกกฎและคำสั่งต้องขึ้นบรรทัดใหม่
- ค่ากฎ Disallow/Allow ต้องขึ้นต้นด้วย / หรือ *
- ทุกบรรทัดที่ขึ้นต้นด้วยสัญลักษณ์ # หรือบางส่วนของบรรทัดที่ขึ้นต้นด้วยสัญลักษณ์นี้ ถือเป็นความคิดเห็นและจะไม่นำมาพิจารณาโดยตัวแทน
ดังนั้น เนื้อหาขั้นต่ำของไฟล์ robots.txt ที่กำหนดค่าอย่างเหมาะสมจะมีลักษณะดังนี้:
User-agent: * #for all agent Disallow: #nothing is allowance = อนุญาตให้เข้าถึงไฟล์ทั้งหมดได้
จะสร้าง/แก้ไข ROBOTS.TXT ได้อย่างไร?
คุณสามารถสร้างไฟล์โดยใช้โปรแกรมแก้ไขข้อความใดก็ได้ (เช่น Notepad++) หากต้องการสร้างหรือแก้ไขไฟล์ robots.txt โดยปกติคุณจะต้องเข้าถึงเซิร์ฟเวอร์ผ่าน FTP/SSH อย่างไรก็ตาม CMS/CMF จำนวนมากมีอินเทอร์เฟซในตัวสำหรับจัดการเนื้อหาไฟล์ผ่านแผงการดูแลระบบ (“แผงผู้ดูแลระบบ”) สำหรับ ตัวอย่าง: Bitrix, ShopScript และอื่นๆ
เหตุใดจึงจำเป็นต้องมีไฟล์ ROBOTS.TXT บนเว็บไซต์
ดังที่เห็นได้จากคำจำกัดความ robots.txt ช่วยให้คุณสามารถควบคุมพฤติกรรมของโรบ็อตเมื่อเข้าชมไซต์ได้ เช่น กำหนดค่าการจัดทำดัชนีไซต์โดยเครื่องมือค้นหา - ทำให้ไฟล์นี้เป็นส่วนสำคัญของการเพิ่มประสิทธิภาพ SEO ของไซต์ของคุณ คุณลักษณะที่สำคัญที่สุดของ robots.txt คือการห้ามจัดทำดัชนีหน้า/ไฟล์ที่ไม่มีข้อมูลที่เป็นประโยชน์ หรือทั้งไซต์ ซึ่งอาจจำเป็น เช่น สำหรับเวอร์ชันทดสอบของไซต์
ตัวอย่างหลักของสิ่งที่ต้องถูกบล็อกจากการจัดทำดัชนีจะกล่าวถึงด้านล่าง
สิ่งใดควรถูกบล็อกจากการจัดทำดัชนี
ประการแรก คุณควรปิดการใช้งานการจัดทำดัชนีของไซต์ในระหว่างกระบวนการพัฒนาเพื่อหลีกเลี่ยงเพจที่จะไม่ได้อยู่ในเวอร์ชันที่เสร็จสมบูรณ์ของไซต์และเพจที่มีเนื้อหาที่ขาดหายไป/ซ้ำ/ทดสอบรวมอยู่ในดัชนีก่อนที่จะเสร็จสมบูรณ์
ประการที่สอง สำเนาของไซต์ที่สร้างขึ้นเป็นไซต์ทดสอบเพื่อการพัฒนาควรถูกซ่อนจากการจัดทำดัชนี
ประการที่สาม มาดูกันว่าเนื้อหาใดบนเว็บไซต์โดยตรงที่ควรห้ามไม่ให้จัดทำดัชนี
- ส่วนการดูแลระบบของไซต์ ไฟล์บริการ
- หน้าการอนุญาต/การลงทะเบียนผู้ใช้ ในกรณีส่วนใหญ่ - ส่วนส่วนบุคคลของผู้ใช้ (หากไม่มีการเข้าถึงหน้าส่วนตัวแบบสาธารณะ)
- หน้าตะกร้าสินค้าและชำระเงิน การดูคำสั่งซื้อ
- หน้าเปรียบเทียบผลิตภัณฑ์ สามารถเลือกเปิดหน้าดังกล่าวเพื่อทำดัชนีได้ หากหน้าเหล่านั้นไม่ซ้ำกัน โดยทั่วไป ตารางเปรียบเทียบคือหน้าเว็บจำนวนนับไม่ถ้วนที่มีเนื้อหาซ้ำกัน
- หน้าการค้นหาและการกรองสามารถเปิดทิ้งไว้เพื่อการจัดทำดัชนีได้ก็ต่อเมื่อมีการกำหนดค่าอย่างถูกต้อง: URL แยกกัน กรอกส่วนหัวที่ไม่ซ้ำ เมตาแท็ก ในกรณีส่วนใหญ่ ควรปิดหน้าดังกล่าว
- หน้าที่มีการจัดเรียงผลิตภัณฑ์/บันทึก หากมีที่อยู่ต่างกัน
- หน้าที่มีแท็ก utm และ openstat ใน URL (รวมถึงแท็กอื่นๆ ทั้งหมด)
ไวยากรณ์ ROBOTS.TXT
ตอนนี้เรามาดูไวยากรณ์ของ robots.txt โดยละเอียดมากขึ้น
บทบัญญัติทั่วไป:
- แต่ละคำสั่งจะต้องเริ่มต้นด้วยบรรทัดใหม่
- เส้นต้องไม่ขึ้นต้นด้วยช่องว่าง
- ค่าของคำสั่งจะต้องอยู่ในหนึ่งบรรทัด
- ไม่จำเป็นต้องใส่ค่าคำสั่งในเครื่องหมายคำพูด
- โดยค่าเริ่มต้นสำหรับค่าคำสั่งทั้งหมด a * ถูกเขียนในตอนท้าย ตัวอย่าง:ตัวแทนผู้ใช้: Yandex Disallow: /cgi-bin* # บล็อกการเข้าถึงหน้า Disallow: /cgi-bin # เหมือนกัน
- การป้อนบรรทัดว่างจะถูกตีความว่าเป็นจุดสิ้นสุดของกฎ User-agent
- ในคำสั่ง "อนุญาต" และ "ไม่อนุญาต" ระบุเพียงค่าเดียวเท่านั้น
- ชื่อของไฟล์ robots.txt ไม่อนุญาตให้ใช้ตัวพิมพ์ใหญ่
- ไม่อนุญาตให้ใช้ robots.txt ที่มีขนาดใหญ่กว่า 32 KB โรบ็อตจะไม่ดาวน์โหลดไฟล์ดังกล่าวและจะถือว่าไซต์นั้นได้รับอนุญาตโดยสมบูรณ์
- robots.txt ที่ไม่สามารถเข้าถึงได้สามารถตีความได้ว่าได้รับอนุญาตโดยสมบูรณ์
- robots.txt ที่ว่างเปล่าถือว่าได้รับอนุญาตโดยสมบูรณ์
- เพื่อระบุค่าซีริลลิกของกฎให้ใช้ Punycod
- อนุญาตเฉพาะการเข้ารหัส UTF-8 และ ASCII เท่านั้น ไม่อนุญาตให้ใช้ตัวอักษรประจำชาติและอักขระอื่นๆ ใน robots.txt
อักขระพิเศษ:
- #
สัญลักษณ์เริ่มต้นความคิดเห็น ข้อความทั้งหมดหลัง # และก่อนตัวแบ่งบรรทัดถือเป็นความคิดเห็นและไม่ได้ใช้โดยโรบ็อต
*ค่าไวด์การ์ดที่แสดงถึงคำนำหน้า ส่วนต่อท้าย หรือค่าทั้งหมดของคำสั่ง - ชุดอักขระใดๆ (รวมทั้งค่าว่างด้วย)
- $
บ่งชี้จุดสิ้นสุดของบรรทัด, ห้ามเพิ่ม * ค่า, เปิด ตัวอย่าง:
User-agent: * #for all อนุญาต: /$ #allow การจัดทำดัชนีของหน้าหลัก Disallow: * #deny การจัดทำดัชนีของทุกหน้า ยกเว้นหน้าที่ได้รับอนุญาต
รายการคำสั่ง
- ผู้ใช้ตัวแทน
คำสั่งบังคับ กำหนดว่ากฎจะใช้กับโรบ็อตตัวใด กฎสามารถมีคำสั่งดังกล่าวได้ตั้งแต่หนึ่งคำสั่งขึ้นไป คุณสามารถใช้อักขระ * เพื่อระบุคำนำหน้า ต่อท้าย หรือ ชื่อเต็มหุ่นยนต์ ตัวอย่าง:
#ไซต์นี้ปิดให้บริการแก่ Google News และ Google รูปภาพ User-agent: Googlebot-Image User-agent: Googlebot-News Disallow: / #สำหรับโรบ็อตทั้งหมดที่มีชื่อขึ้นต้นด้วย Yandex ให้ปิดส่วน "News" User-agent: Yandex* ไม่อนุญาต: /news #open ให้กับคนอื่นๆ User-agent: * Disallow:
- ไม่อนุญาต
คำสั่งระบุว่าไฟล์หรือไดเร็กทอรีใดที่ไม่สามารถจัดทำดัชนีได้ ค่าของคำสั่งต้องขึ้นต้นด้วยสัญลักษณ์ / หรือ * ตามค่าเริ่มต้น * จะถูกวางไว้ที่ส่วนท้ายของค่า เว้นแต่จะห้ามไว้ด้วยสัญลักษณ์ $
- อนุญาต
แต่ละกฎต้องมีคำสั่ง Disallow: หรือ Allow: อย่างน้อยหนึ่งรายการ
คำสั่งระบุว่าไฟล์หรือไดเร็กทอรีใดที่ควรจัดทำดัชนี ค่าของคำสั่งต้องขึ้นต้นด้วยสัญลักษณ์ / หรือ * ตามค่าเริ่มต้น * จะถูกวางไว้ที่ส่วนท้ายของค่า เว้นแต่จะห้ามไว้ด้วยสัญลักษณ์ $
การใช้คำสั่งนี้มีความเกี่ยวข้องเฉพาะกับ Disallow เท่านั้น เพื่ออนุญาตการจัดทำดัชนีของชุดย่อยของหน้าเว็บบางหน้าที่ถูกห้ามไม่ให้จัดทำดัชนีโดยคำสั่ง Disallow
- ทำความสะอาดพารามิเตอร์
คำสั่งทางแยกทางเลือก ใช้คำสั่ง Clean-param หากที่อยู่หน้าไซต์มีพารามิเตอร์ GET (แสดงใน URL หลังเครื่องหมาย?) ที่ไม่ส่งผลกระทบต่อเนื้อหา (เช่น UTM) เมื่อใช้กฎนี้ ที่อยู่ทั้งหมดจะลดลงเป็นรูปแบบเดียว ซึ่งเป็นรูปแบบเดิม โดยไม่มีพารามิเตอร์
ไวยากรณ์คำสั่ง:
ทำความสะอาดพารามิเตอร์: p0[&p1&p2&..&pn]
p0… - ชื่อของพารามิเตอร์ที่ไม่จำเป็นต้องนำมาพิจารณา
เส้นทาง - คำนำหน้าเส้นทางของเพจที่ใช้กฎตัวอย่าง.
เว็บไซต์มีหน้าเช่น
www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123
เมื่อกำหนดกฎเกณฑ์แล้ว
ตัวแทนผู้ใช้: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl
หุ่นยนต์จะลดที่อยู่หน้าทั้งหมดเป็นหนึ่ง:
www.example.com/some_dir/get_book.pl?book_id=123
- แผนผังเว็บไซต์
คำสั่งทางเลือก คุณสามารถวางคำสั่งดังกล่าวหลายคำสั่งไว้ในไฟล์เดียวแบบตัดกัน (เพียงพอที่จะระบุคำสั่งนั้นเพียงครั้งเดียวในไฟล์ โดยไม่ต้องทำซ้ำสำหรับแต่ละเอเจนต์)
ตัวอย่าง:
แผนผังไซต์: https://example.com/sitemap.xml
- การรวบรวมข้อมูลล่าช้า
คำสั่งช่วยให้คุณสามารถตั้งค่าโรบ็อตการค้นหาเป็นระยะเวลาขั้นต่ำ (เป็นวินาที) ระหว่างการสิ้นสุดการโหลดหน้าหนึ่งและการเริ่มโหลดหน้าถัดไป รองรับค่าเศษส่วน
ค่าต่ำสุดที่ยอมรับได้สำหรับหุ่นยนต์ Yandex คือ 2.0
Googlebots ไม่เคารพคำสั่งนี้
ตัวอย่าง:
User-agent: Yandex Crawl-delay: 2.0 # ตั้งค่าการหมดเวลาเป็น 2 วินาที User-agent: * Crawl-delay: 1.5 # ตั้งค่าการหมดเวลาเป็น 1.5 วินาที
- เจ้าภาพ
คำสั่งระบุมิเรอร์หลักของไซต์ บน ในขณะนี้ในบรรดาเสิร์ชเอ็นจิ้นยอดนิยม รองรับเฉพาะ Mail.ru เท่านั้น
ตัวอย่าง:
ตัวแทนผู้ใช้: Mail.Ru Host: www.site.ru # กระจกหลักจาก www
ตัวอย่าง robots.txt สำหรับ CMS ยอดนิยม
ROBOTS.TXT สำหรับ 1C:Bitrix
Bitrix CMS มอบความสามารถในการจัดการเนื้อหาของไฟล์ robots.txt ในการดำเนินการนี้ ในอินเทอร์เฟซผู้ดูแลระบบ คุณต้องไปที่เครื่องมือ “การกำหนดค่า robots.txt” โดยใช้การค้นหา หรือตามเส้นทางการตลาด -> การเพิ่มประสิทธิภาพกลไกค้นหา -> การกำหนดค่า robots.txt คุณยังสามารถเปลี่ยนเนื้อหาของ robots.txt ผ่านโปรแกรมแก้ไขไฟล์ Bitrix ในตัวหรือผ่านทาง FTP
ตัวอย่างด้านล่างสามารถใช้เป็นชุดเริ่มต้นของ robots.txt สำหรับไซต์ Bitrix ได้ แต่ไม่ได้เป็นสากลและต้องมีการปรับเปลี่ยนโดยขึ้นอยู่กับไซต์
คำอธิบาย:
- การแยกออกเป็นกฎสำหรับเอเจนต์ต่างๆ เกิดจากการที่ Google ไม่รองรับคำสั่ง Clean-param
ROBOTS.TXT สำหรับเวิร์ดเพรส
ไม่มีเครื่องมือในตัวสำหรับการตั้งค่า robots.txt ในแผงผู้ดูแลระบบ WordPress ดังนั้นการเข้าถึงไฟล์จะทำได้โดยใช้ FTP เท่านั้นหรือหลังจากติดตั้งปลั๊กอินพิเศษ (เช่น DL Robots.txt)
ตัวอย่างด้านล่างนี้สามารถใช้เป็นชุดเริ่มต้นของ robots.txt สำหรับไซต์ Wordpress ได้ แต่ไม่ได้เป็นสากลและต้องมีการปรับเปลี่ยนโดยขึ้นอยู่กับไซต์
คำอธิบาย:
- คำสั่ง Allow ระบุเส้นทางไปยังไฟล์ของสไตล์ สคริปต์ และรูปภาพ: เพื่อการจัดทำดัชนีที่เหมาะสมของไซต์ โรบ็อตจะต้องเข้าถึงได้
- สำหรับไซต์ส่วนใหญ่ หน้าเก็บถาวรตามผู้เขียนและแท็กจะสร้างเฉพาะเนื้อหาที่ซ้ำกันและไม่สร้างเนื้อหาที่มีประโยชน์ ดังนั้นในตัวอย่างนี้ หน้าเหล่านี้จึงถูกปิดสำหรับการจัดทำดัชนี หากหน้าดังกล่าวในโปรเจ็กต์ของคุณมีความจำเป็น มีประโยชน์ และไม่ซ้ำกัน คุณควรลบคำสั่ง Disallow: /tag/ และ Disallow: /author/
ตัวอย่างของ ROBOTS.TXT ที่ถูกต้องสำหรับไซต์บน WoRdPress:
ตัวแทนผู้ใช้: Yandex # สำหรับ Yandex Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ ฝัง Disallow: /xmlrpc.php Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom อนุญาต: */uploads อนุญาต: /*/*.js อนุญาต: /*/*.css อนุญาต: /wp-* .png อนุญาต: /wp-*.jpg อนุญาต: /wp-*.jpeg อนุญาต: /wp-*.gif Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-agent: * Disallow: /cgi-bin Disallow: / ? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ ฝัง Disallow: /xmlrpc.php Disallow: *?utm Disallow: *openstat= Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom Allow: */uploads Allow: /*/*.js Allow: /* /*.css อนุญาต: /wp-*.png อนุญาต: /wp-*.jpg อนุญาต: /wp-*.jpeg อนุญาต: /wp-*.gif แผนผังไซต์: http://site.com/sitemap.xml # แทนที่ด้วยที่อยู่ของแผนผังไซต์ของคุณ
ROBOTS.TXT สำหรับ OpenCart
ไม่มีเครื่องมือในตัวสำหรับการกำหนดค่า robots.txt ในแผงผู้ดูแลระบบ OpenCart ดังนั้นการเข้าถึงไฟล์จึงทำได้โดยใช้ FTP เท่านั้น
ตัวอย่างด้านล่างนี้สามารถใช้เป็นชุดเริ่มต้นของ robots.txt สำหรับไซต์ OpenCart ได้ แต่ไม่ได้เป็นสากลและต้องมีการปรับเปลี่ยนโดยขึ้นอยู่กับไซต์
คำอธิบาย:
- คำสั่ง Allow ระบุเส้นทางไปยังไฟล์ของสไตล์ สคริปต์ และรูปภาพ: เพื่อการจัดทำดัชนีที่เหมาะสมของไซต์ โรบ็อตจะต้องเข้าถึงได้
- การแยกออกเป็นกฎสำหรับตัวแทนที่แตกต่างกันนั้นเกิดจากการที่ Google ไม่รองรับคำสั่ง Clean-param
ROBOTS.TXT สำหรับ Joomla!
ไม่มีเครื่องมือในตัวสำหรับการตั้งค่า robots.txt ในแผงผู้ดูแลระบบ Joomla ดังนั้นการเข้าถึงไฟล์จึงทำได้โดยใช้ FTP เท่านั้น
ตัวอย่างด้านล่างสามารถใช้เป็นชุดเริ่มต้นของ robots.txt สำหรับไซต์ Joomla ที่เปิดใช้งาน SEF ได้ แต่ไม่ใช่แบบสากลและต้องมีการปรับเปลี่ยนโดยขึ้นอยู่กับไซต์
คำอธิบาย:
- คำสั่ง Allow ระบุเส้นทางไปยังไฟล์ของสไตล์ สคริปต์ และรูปภาพ: เพื่อการจัดทำดัชนีที่เหมาะสมของไซต์ โรบ็อตจะต้องเข้าถึงได้
- การแยกออกเป็นกฎสำหรับตัวแทนที่แตกต่างกันนั้นเกิดจากการที่ Google ไม่รองรับคำสั่ง Clean-param
รายชื่อตัวแทนหลัก
บอท | การทำงาน |
Googlebot | หุ่นยนต์จัดทำดัชนีหลักของ Google |
Googlebot-ข่าวสาร | Google ข่าวสาร |
Googlebot-รูปภาพ | Google รูปภาพ |
Googlebot-วิดีโอ | วิดีโอ |
Mediapartners-Google | |
สื่อพันธมิตร | Google AdSense, Google AdSense บนมือถือ |
AdsBot-Google | การตรวจสอบคุณภาพของหน้า Landing Page |
AdsBot-Google-แอพมือถือ | Googlebot สำหรับแอป |
ยานเดกซ์บอท | หุ่นยนต์จัดทำดัชนีหลักของยานเดกซ์ |
YandexImages | Yandex รูปภาพ |
Yandexวิดีโอ | Yandex.Video |
ยานเดกซ์มีเดีย | ข้อมูลมัลติมีเดีย |
YandexBlogs | หุ่นยนต์ค้นหาบล็อก |
YandexAddurl | โรบ็อตที่เข้าถึงเพจเมื่อเพิ่มผ่านแบบฟอร์ม "เพิ่ม URL" |
YandexFavicons | หุ่นยนต์ที่จัดทำดัชนีไอคอนเว็บไซต์ (favicons) |
YandexDirect | Yandex.Direct |
YandexMetrika | Yandex.Metrica |
แค็ตตาล็อกยานเดกซ์ | Yandex.Catalog |
ยานเดกซ์นิวส์ | ยานเดกซ์ข่าว |
YandexImageResizer | หุ่นยนต์บริการมือถือ |
บิงบอต | หุ่นยนต์จัดทำดัชนีหลักของ Bing |
สลบ | หุ่นยนต์จัดทำดัชนีหลัก Yahoo! |
Mail.Ru | หุ่นยนต์จัดทำดัชนีหลัก Mail.Ru |
คำถามที่พบบ่อย
ไฟล์ข้อความ robots.txt สามารถเข้าถึงได้แบบสาธารณะ ดังนั้น โปรดทราบว่าไฟล์นี้ไม่ควรใช้เป็นวิธีการซ่อนข้อมูลที่เป็นความลับ
มีความแตกต่างระหว่าง robots.txt สำหรับ Yandex และ Google หรือไม่
ไม่มีความแตกต่างพื้นฐานในการประมวลผล robots.txt โดยเครื่องมือค้นหา Yandex และ Google แต่ควรเน้นประเด็นหลายประการ:
- ตามที่ระบุไว้ข้างต้น กฎใน robots.txt ถือเป็นคำแนะนำซึ่ง Google ใช้งานอยู่
ในเอกสารประกอบสำหรับ robots.txt นั้น Google ระบุว่า “..ไม่ได้มีจุดมุ่งหมายเพื่อป้องกันไม่ให้หน้าเว็บแสดงในผลการค้นหาของ Google “ และ “หากไฟล์ robots.txt ป้องกันไม่ให้ Googlebot ประมวลผลหน้าเว็บ ไฟล์ดังกล่าวอาจยังคงแสดงต่อ Google” หากต้องการยกเว้นหน้าเว็บจากการค้นหาของ Google คุณต้องใช้เมตาแท็กโรบ็อต
ยานเดกซ์แยกหน้าออกจากการค้นหาตามกฎของ robots.txt
- Yandex ต่างจาก Google ตรงที่สนับสนุนคำสั่ง Clean-param และ Crawl-delay
- Google AdsBot ไม่ปฏิบัติตามกฎสำหรับ User-agent: *;
- แหล่งที่มาหลายแห่งระบุว่าควรเปิดไฟล์สคริปต์และสไตล์ (.js, .css) เพื่อการจัดทำดัชนีโดยโรบ็อตของ Google เท่านั้น ในความเป็นจริงสิ่งนี้ไม่เป็นความจริงและควรเปิดไฟล์เหล่านี้สำหรับ Yandex ด้วย: ตั้งแต่วันที่ 9 พฤศจิกายน 2558 Yandex เริ่มใช้ js และ css เมื่อจัดทำดัชนีไซต์ (โพสต์บล็อกอย่างเป็นทางการ)
จะบล็อกไซต์ไม่ให้สร้างดัชนีใน robots.txt ได้อย่างไร
หากต้องการปิดไซต์ใน Robots.txt คุณต้องใช้กฎข้อใดข้อหนึ่งต่อไปนี้:
ตัวแทนผู้ใช้: * ไม่อนุญาต: / ตัวแทนผู้ใช้: * ไม่อนุญาต: *
มีความเป็นไปได้ที่จะปิดไซต์เพียงเครื่องมือค้นหาเดียว (หรือหลายรายการ) ในขณะที่เหลือความเป็นไปได้ในการจัดทำดัชนีที่เหลือ ในการดำเนินการนี้ คุณต้องเปลี่ยนคำสั่ง User-agent ในกฎ: แทนที่ * ด้วยชื่อของตัวแทนที่คุณต้องการปฏิเสธการเข้าถึง ()
จะเปิดไซต์เพื่อสร้างดัชนีใน robots.txt ได้อย่างไร
ในกรณีปกติ หากต้องการเปิดไซต์สำหรับการจัดทำดัชนีใน robots.txt คุณไม่จำเป็นต้องดำเนินการใดๆ คุณเพียงแค่ต้องแน่ใจว่าไดเร็กทอรีที่จำเป็นทั้งหมดเปิดอยู่ใน robots.txt ตัวอย่างเช่น หากเว็บไซต์ของคุณถูกซ่อนจากการจัดทำดัชนีก่อนหน้านี้ คุณควรลบกฎต่อไปนี้ออกจาก robots.txt (ขึ้นอยู่กับกฎที่ใช้):
- ไม่อนุญาต: /
- ไม่อนุญาต: *
โปรดทราบว่าการจัดทำดัชนีสามารถปิดได้ไม่เฉพาะโดยใช้ไฟล์ robots.txt เท่านั้น แต่ยังใช้เมตาแท็ก robots ได้ด้วย
นอกจากนี้ คุณควรทราบด้วยว่าการไม่มีไฟล์ robots.txt อยู่ที่รากของไซต์ หมายความว่าอนุญาตให้จัดทำดัชนีของไซต์ได้
จะระบุมิเรอร์เว็บไซต์หลักใน robots.txt ได้อย่างไร
ในขณะนี้ ไม่สามารถระบุมิเรอร์หลักโดยใช้ robots.txt ได้ ก่อนหน้านี้ Yandex PS ใช้คำสั่ง Host ซึ่งมีการระบุกระจกหลัก แต่ ณ วันที่ 20 มีนาคม 2018 Yandex ละทิ้งการใช้งานโดยสิ้นเชิง ในปัจจุบัน การระบุมิเรอร์หลักสามารถทำได้โดยใช้การเปลี่ยนเส้นทางหน้า 301 เท่านั้น
ไฟล์ robots.txt— ไฟล์ข้อความในรูปแบบ .txt ที่จำกัดการเข้าถึงเนื้อหาบนเซิร์ฟเวอร์ http ของโรบ็อตการค้นหา ยังไง คำนิยาม Robots.txt- นี้ มาตรฐานข้อยกเว้นของหุ่นยนต์ซึ่งได้รับการรับรองโดย W3C เมื่อวันที่ 30 มกราคม พ.ศ. 2537 และเครื่องมือค้นหาส่วนใหญ่ใช้งานโดยสมัครใจ ไฟล์ robots.txt ประกอบด้วยชุดคำสั่งสำหรับโรบ็อตการค้นหาเพื่อป้องกันไม่ให้ไฟล์ หน้าเว็บ หรือไดเรกทอรีบางรายการบนไซต์ถูกจัดทำดัชนี ลองพิจารณาคำอธิบายของ robots.txt สำหรับกรณีที่ไซต์ไม่ได้จำกัดการเข้าถึงของโรบ็อตในไซต์
ตัวอย่าง robots.txt ง่ายๆ:
ตัวแทนผู้ใช้: * อนุญาต: /
โรบ็อตที่นี่อนุญาตให้สร้างดัชนีของทั้งไซต์ได้อย่างสมบูรณ์
ต้องอัปโหลดไฟล์ robots.txt ไปยังไดเรกทอรีรากของเว็บไซต์ของคุณเพื่อให้มีจำหน่ายที่:
Your_site.ru/robots.txt
การวางไฟล์ robots.txt ไว้ที่รากของไซต์มักจะต้องมีการเข้าถึง FTP- อย่างไรก็ตาม ระบบการจัดการ (CMS) บางระบบทำให้สามารถสร้าง robots.txt ได้โดยตรงจากแผงควบคุมไซต์หรือผ่านตัวจัดการ FTP ในตัว
หากไฟล์พร้อมใช้งาน คุณจะเห็นเนื้อหาของ robots.txt ในเบราว์เซอร์
robots.txt มีไว้เพื่ออะไร
Roots.txt สำหรับไซต์เป็นสิ่งสำคัญ ทำไมคุณถึงต้องการ robots.txt?- ตัวอย่างเช่นใน จำเป็นต้องมี SEO robots.txt เพื่อแยกออกจากหน้าจัดทำดัชนีที่ไม่มีเนื้อหาที่เป็นประโยชน์และอื่นๆ อีกมากมาย- อย่างไร อะไร ทำไม และเหตุใดจึงได้รับการอธิบายไว้ในบทความเกี่ยวกับเรื่องนี้แล้ว เราจะไม่พูดถึงเรื่องนี้ที่นี่ ไฟล์ robots.txt จำเป็นหรือไม่ไปยังทุกไซต์? ใช่และไม่ใช่ หากการใช้ robots.txt หมายถึงการยกเว้นหน้าเว็บจากการค้นหา ดังนั้นสำหรับไซต์ขนาดเล็กที่มีโครงสร้างเรียบง่ายและหน้าเว็บแบบคงที่ การยกเว้นดังกล่าวอาจไม่จำเป็น อย่างไรก็ตาม บางส่วนอาจมีประโยชน์สำหรับไซต์ขนาดเล็ก คำสั่ง robots.txtเช่น คำสั่ง Host หรือ Sitemap แต่มีรายละเอียดเพิ่มเติมด้านล่าง
วิธีสร้าง robots.txt
เนื่องจาก robots.txt เป็นไฟล์ข้อความและถึง สร้างไฟล์ robots.txtคุณสามารถใช้โปรแกรมแก้ไขข้อความใดก็ได้ เป็นต้น แผ่นจดบันทึก- เมื่อคุณเปิดเอกสารข้อความใหม่ คุณได้เริ่มสร้าง robots.txt แล้ว สิ่งที่เหลืออยู่คือการเขียนเนื้อหา ขึ้นอยู่กับความต้องการของคุณ และบันทึกเป็น ไฟล์ข้อความที่เรียกว่า robots ในรูปแบบ txt- ทุกอย่างง่ายดาย และการสร้างไฟล์ robots.txt ไม่ควรทำให้เกิดปัญหาแม้แต่กับผู้เริ่มต้น ด้านล่างนี้ ฉันจะแสดงให้คุณเห็นถึงวิธีการเขียน robots.txt และสิ่งที่ควรเขียนในโรบ็อตโดยใช้ตัวอย่าง
สร้าง robots.txt ออนไลน์
ตัวเลือกสำหรับคนขี้เกียจ - สร้างโรบ็อตออนไลน์และดาวน์โหลดไฟล์ robots.txtอยู่ในรูปแบบที่เสร็จสมบูรณ์แล้ว การสร้าง robots txt ออนไลน์นำเสนอบริการมากมาย ทางเลือกเป็นของคุณ สิ่งสำคัญคือต้องเข้าใจอย่างชัดเจนว่าสิ่งใดเป็นสิ่งต้องห้ามและสิ่งใดจะได้รับอนุญาตมิฉะนั้น การสร้างไฟล์ robots.txt ออนไลน์อาจกลายเป็นโศกนาฏกรรมได้ซึ่งอาจแก้ไขได้ยากในภายหลัง โดยเฉพาะอย่างยิ่งหากการค้นหามีบางสิ่งที่ควรปิดไว้ โปรดใช้ความระมัดระวัง - ตรวจสอบไฟล์โรบ็อตของคุณก่อนที่จะอัปโหลดไปยังไซต์ นิ่ง ไฟล์ robots.txt ที่กำหนดเองสะท้อนถึงโครงสร้างของข้อจำกัดได้แม่นยำกว่าโครงสร้างที่สร้างขึ้นโดยอัตโนมัติและดาวน์โหลดจากไซต์อื่น อ่านต่อเพื่อทราบว่าควรใส่ใจเป็นพิเศษเมื่อแก้ไข robots.txt
การแก้ไข robots.txt
เมื่อคุณสร้างไฟล์ robots.txt ทางออนไลน์หรือด้วยมือของคุณเองแล้ว คุณก็สามารถทำได้ แก้ไข robots.txt- คุณสามารถเปลี่ยนเนื้อหาได้ตามที่คุณต้องการ สิ่งสำคัญคือต้องปฏิบัติตามกฎและไวยากรณ์ของ robots.txt ขณะทำงานบนไซต์ ไฟล์ robots อาจมีการเปลี่ยนแปลง และหากคุณแก้ไข robots.txt อย่าลืมอัปโหลดไฟล์เวอร์ชันปัจจุบันที่อัปเดตพร้อมการเปลี่ยนแปลงทั้งหมดที่เกิดขึ้นกับไซต์ ต่อไปเรามาดูกฎสำหรับการตั้งค่าไฟล์เพื่อให้เราทราบ วิธีเปลี่ยนไฟล์ robots.txtและ “อย่าสับไม้”
การตั้งค่า robots.txt อย่างถูกต้อง
การตั้งค่า robots.txt อย่างถูกต้องช่วยให้คุณหลีกเลี่ยงข้อมูลส่วนตัวไม่ให้เข้าสู่ผลการค้นหาของเครื่องมือค้นหาสำคัญ ๆ อย่างไรก็ตามก็ไม่ควรลืมสิ่งนั้น คำสั่ง robots.txt เป็นเพียงแนวทางในการดำเนินการ ไม่ใช่การป้องกัน- โรบ็อตจากเครื่องมือค้นหาที่เชื่อถือได้ เช่น Yandex หรือ Google ทำตามคำแนะนำของ robots.txt แต่โรบ็อตตัวอื่นสามารถเพิกเฉยได้ง่าย ความเข้าใจที่ถูกต้องและการประยุกต์ใช้ robots.txt คือกุญแจสำคัญในการได้รับผลลัพธ์
เพื่อให้เข้าใจ วิธีสร้าง robots txt ที่ถูกต้องก่อนอื่นคุณต้องเข้าใจกฎทั่วไป ไวยากรณ์ และคำสั่งของไฟล์ robots.txt
robots.txt ที่ถูกต้องจะเริ่มต้นด้วยคำสั่ง User-agentซึ่งบ่งชี้ถึงคำสั่งเฉพาะของหุ่นยนต์ตัวใดที่ส่งถึง
ตัวอย่างของ User-agent ใน robots.txt:
# ระบุคำสั่งสำหรับหุ่นยนต์ทั้งหมดในเวลาเดียวกัน User-agent: * # ระบุคำสั่งสำหรับหุ่นยนต์ Yandex ทั้งหมด User-agent: Yandex # ระบุคำสั่งสำหรับหุ่นยนต์จัดทำดัชนี Yandex หลักเท่านั้น User-agent: YandexBot # ระบุคำสั่งสำหรับผู้ใช้หุ่นยนต์ Google ทั้งหมด -ตัวแทน: Googlebot
โปรดทราบว่าดังกล่าว การตั้งค่าไฟล์ robots.txtบอกให้หุ่นยนต์ใช้คำสั่งที่ตรงกับชื่อตัวแทนผู้ใช้เท่านั้น
ตัวอย่าง robots.txt ที่มี User-agent หลายครั้ง:
# จะถูกใช้งานโดยโรบ็อต Yandex ทั้งหมด User-agent: Yandex Disallow: /*utm_ # จะถูกใช้งานโดยโรบ็อตของ Google ทั้งหมด User-agent: Googlebot Disallow: /*utm_ # จะถูกใช้โดยโรบ็อตทั้งหมด ยกเว้นหุ่นยนต์ Yandex และ Google User- ตัวแทน: * อนุญาต: / *utm_
คำสั่งตัวแทนผู้ใช้สร้างเฉพาะคำสั่งให้กับหุ่นยนต์เฉพาะ และทันทีหลังจากคำสั่ง User-agent ควรมีคำสั่งหรือคำสั่งโดยตรงที่ระบุเงื่อนไขสำหรับหุ่นยนต์ที่เลือก ตัวอย่างด้านบนใช้คำสั่ง "Disallow" ซึ่งมีค่าเป็น "/*utm_" ดังนั้นเราจึงปิดทุกอย่าง การตั้งค่า robots.txt อย่างถูกต้องจะห้ามไม่ให้มีการขึ้นบรรทัดใหม่ระหว่างคำสั่ง "User-agent", "Disallow" และคำสั่งที่อยู่หลัง "Disallow" ภายใน "User-agent" ปัจจุบัน
ตัวอย่างการป้อนบรรทัดที่ไม่ถูกต้องใน robots.txt:
ตัวอย่างการป้อนบรรทัดที่ถูกต้องใน robots.txt:
ตัวแทนผู้ใช้: Yandex ไม่อนุญาต: /*utm_ อนุญาต: /*id= ตัวแทนผู้ใช้: * ไม่อนุญาต: /*utm_ อนุญาต: /*id=
ดังที่เห็นได้จากตัวอย่าง คำแนะนำใน robots.txt จะอยู่ในรูปแบบบล็อกซึ่งแต่ละคำสั่งจะมีคำสั่งสำหรับหุ่นยนต์เฉพาะหรือสำหรับหุ่นยนต์ทั้งหมด "*"
นอกจากนี้ สิ่งสำคัญคือต้องปฏิบัติตาม ลำดับที่ถูกต้องและการเรียงลำดับคำสั่งใน robots.txt เมื่อใช้คำสั่งร่วมกัน เช่น "Disallow" และ "Allow" คำสั่ง "อนุญาต" เป็นคำสั่งอนุญาต และอยู่ตรงข้ามกับคำสั่ง "Disallow" ของ robots.txt ซึ่งเป็นคำสั่งห้าม
ตัวอย่างการใช้คำสั่งร่วมกันใน robots.txt:
ตัวแทนผู้ใช้: * อนุญาต: /blog/page ไม่อนุญาต: /blog
ตัวอย่างนี้ป้องกันไม่ให้โรบอตทั้งหมดสร้างดัชนีหน้าเว็บทั้งหมดที่ขึ้นต้นด้วย "/blog" แต่อนุญาตให้สร้างดัชนีหน้าเว็บทั้งหมดที่ขึ้นต้นด้วย "/blog/page"
ตัวอย่างก่อนหน้าของ robots.txt ในการจัดเรียงที่ถูกต้อง:
User-agent: * Disallow: /blog อนุญาต: /blog/page
ขั้นแรกเราแบนส่วนทั้งหมด จากนั้นจึงอนุญาตบางส่วน
อื่น ตัวอย่าง robots.txt ที่ถูกต้องโดยมีแนวทางร่วมกัน:
ตัวแทนผู้ใช้: * อนุญาต: / ไม่อนุญาต: /blog อนุญาต: /blog/page
โปรดใส่ใจกับลำดับคำสั่งที่ถูกต้องใน robots.txt นี้
คำสั่ง "อนุญาต" และ "ไม่อนุญาต" สามารถระบุได้โดยไม่ต้องใช้พารามิเตอร์ ซึ่งในกรณีนี้ค่าจะถูกตีความกลับกันกับพารามิเตอร์ "/"
ตัวอย่างคำสั่ง “Disallow/Allow” ที่ไม่มีพารามิเตอร์:
User-agent: * Disallow: # เทียบเท่ากับ Allow: / Disallow: /blog Allow: /blog/page
วิธีสร้าง robots.txt ที่ถูกต้องและวิธีการใช้การตีความคำสั่งนั้นเป็นทางเลือกของคุณ ตัวเลือกทั้งสองจะถูกต้อง สิ่งสำคัญคืออย่าสับสน
ในการเขียน robots.txt อย่างถูกต้อง จำเป็นต้องระบุลำดับความสำคัญอย่างถูกต้องในพารามิเตอร์ของคำสั่ง และสิ่งที่โรบ็อตห้ามดาวน์โหลด เราจะดูการใช้คำสั่ง "Disallow" และ "Allow" อย่างครบถ้วนด้านล่าง แต่ตอนนี้เราจะดูที่ไวยากรณ์ของ robots.txt การรู้ไวยากรณ์ของ robots.txt จะทำให้คุณใกล้ชิดยิ่งขึ้น สร้าง robots txt ที่สมบูรณ์แบบด้วยมือของคุณเอง.
ไวยากรณ์ robots.txt
โรบ็อตเครื่องมือค้นหาทำตามคำสั่ง robots.txt โดยสมัครใจ- มาตรฐานสำหรับข้อยกเว้นของโรบ็อต อย่างไรก็ตาม เครื่องมือค้นหาบางรายการอาจไม่ปฏิบัติต่อไวยากรณ์ของ robots.txt ในลักษณะเดียวกัน ไฟล์ robots.txt มีไวยากรณ์ที่กำหนดไว้อย่างเคร่งครัด แต่ในขณะเดียวกัน เขียน robots txtไม่ยากเพราะโครงสร้างเรียบง่ายและเข้าใจง่าย
นี่คือรายการเฉพาะ กฎง่ายๆต่อไปนี้ซึ่งคุณจะยกเว้น ข้อผิดพลาดทั่วไปของ robots.txt:
- แต่ละคำสั่งเริ่มต้นในบรรทัดใหม่
- อย่าระบุมากกว่าหนึ่งคำสั่งในหนึ่งบรรทัด
- อย่าเว้นวรรคที่ต้นบรรทัด
- พารามิเตอร์คำสั่งต้องอยู่ในบรรทัดเดียว
- ไม่จำเป็นต้องใส่พารามิเตอร์คำสั่งในเครื่องหมายคำพูด
- พารามิเตอร์คำสั่งไม่จำเป็นต้องมีอัฒภาคต่อท้าย
- คำสั่งใน robots.txt ถูกระบุในรูปแบบ - [Directive_name]:[Optional Space][value][Option Space];
- อนุญาตให้แสดงความคิดเห็นใน robots.txt หลังเครื่องหมายแฮช #;
- การขึ้นบรรทัดใหม่สามารถตีความได้ว่าเป็นจุดสิ้นสุดของคำสั่ง User-agent
- คำสั่ง "Disallow:" (มีค่าว่าง) เทียบเท่ากับ "Allow: /" - อนุญาตทุกอย่าง
- คำสั่ง "อนุญาต" และ "ไม่อนุญาต" ระบุพารามิเตอร์ไม่เกินหนึ่งตัว
- ชื่อของไฟล์ robots.txt ไม่อนุญาตให้ใช้อักษรตัวพิมพ์ใหญ่ การสะกดชื่อไฟล์ไม่ถูกต้องคือ Robots.txt หรือ ROBOTS.TXT
- การเขียนชื่อของคำสั่งและพารามิเตอร์ด้วยตัวพิมพ์ใหญ่ถือเป็นรูปแบบที่ไม่ดี และแม้ว่า robots.txt จะไม่คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ตามมาตรฐาน แต่ชื่อไฟล์และไดเร็กทอรีก็มักจะคำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่
- หากพารามิเตอร์คำสั่งเป็นไดเรกทอรี ชื่อไดเรกทอรีจะขึ้นต้นด้วยเครื่องหมายทับ “/” เสมอ เช่น Disallow: /category
- robots.txt ที่มีขนาดใหญ่เกินไป (มากกว่า 32 KB) ถือว่าได้รับอนุญาตโดยสมบูรณ์ ซึ่งเทียบเท่ากับ “Disallow:”;
- Robots.txt ที่ไม่สามารถเข้าถึงได้ไม่ว่าด้วยเหตุผลใดก็ตามสามารถตีความได้ว่าได้รับอนุญาตโดยสมบูรณ์
- หาก robots.txt ว่างเปล่า ระบบจะตีความว่าอนุญาตโดยสมบูรณ์
- จากการแสดงรายการคำสั่ง "User-agent" หลายรายการโดยไม่มีการป้อนบรรทัดว่าง คำสั่ง "User-agent" ที่ตามมาทั้งหมดยกเว้นคำสั่งแรกอาจถูกละเว้น
- ไม่อนุญาตให้ใช้อักขระจากตัวอักษรประจำชาติใน robots.txt
เนื่องจากเครื่องมือค้นหาที่แตกต่างกันอาจตีความไวยากรณ์ของ robots.txt แตกต่างกัน จึงสามารถละเว้นบางประโยคได้ ตัวอย่างเช่น หากคุณป้อนคำสั่ง "User-agent" หลายรายการโดยไม่ขึ้นบรรทัดใหม่ Yandex จะยอมรับคำสั่ง "User-agent" ทั้งหมดอย่างถูกต้อง เนื่องจาก Yandex เลือกบันทึกตามการมีอยู่ของคำสั่งดังกล่าวในบรรทัด "User-agent"
หุ่นยนต์ควรระบุเฉพาะสิ่งที่จำเป็นเท่านั้นและไม่มีอะไรฟุ่มเฟือย อย่าคิดนะ วิธีเขียนทุกอย่างใน robots txtสิ่งที่เป็นไปได้และจะเติมได้อย่างไร หุ่นยนต์ในอุดมคติ txtเป็นอันที่มีบรรทัดน้อยแต่มีความหมายมากกว่า “ความกะทัดรัดเป็นน้องสาวของพรสวรรค์” สำนวนนี้มีประโยชน์ที่นี่
วิธีตรวจสอบ robots.txt
เพื่อ ตรวจสอบ robots.txtหากต้องการตรวจสอบความถูกต้องของไวยากรณ์และโครงสร้างของไฟล์ คุณสามารถใช้หนึ่งในบริการออนไลน์ได้ ตัวอย่างเช่น Yandex และ Google เสนอบริการของตนเองสำหรับผู้ดูแลเว็บ ซึ่งรวมถึง การวิเคราะห์ robots.txt:
กำลังตรวจสอบไฟล์ robots.txt ใน Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml
เพื่อ ตรวจสอบ robots.txt ออนไลน์จำเป็น อัปโหลด robots.txt ไปยังไซต์ในไดเรกทอรีราก- มิฉะนั้นทางบริการอาจรายงานว่า โหลด robots.txt ไม่สำเร็จ- ขอแนะนำให้ตรวจสอบ robots.txt ก่อนว่ามีความพร้อมในที่อยู่ของไฟล์หรือไม่ เช่น your_site.ru/robots.txt
นอกจากบริการตรวจสอบความถูกต้องจาก Yandex และ Google แล้ว ยังมีบริการออนไลน์อื่นๆ อีกมากมาย เครื่องมือตรวจสอบ robots.txt
Robots.txt กับ Yandex และ Google
มีความเห็นส่วนตัวว่า Yandex รับรู้ถึงการบ่งชี้บล็อกคำสั่ง "User-agent: Yandex" ที่แยกต่างหากใน robots.txt ในทางบวกมากกว่าบล็อกคำสั่งทั่วไปที่มี "User-agent: *" สถานการณ์นี้คล้ายคลึงกับ robots.txt และ Google การระบุคำสั่งแยกต่างหากสำหรับ Yandex และ Google ช่วยให้คุณควบคุมการจัดทำดัชนีไซต์ผ่าน robots.txt บางทีพวกเขาอาจรู้สึกยินดีเป็นการส่วนตัวกับการอุทธรณ์โดยเฉพาะอย่างยิ่งเนื่องจากสำหรับไซต์ส่วนใหญ่เนื้อหาของบล็อก robots.txt ของ Yandex, Google และเครื่องมือค้นหาอื่น ๆ จะเหมือนกัน โดยมีข้อยกเว้นที่เกิดขึ้นไม่บ่อยนัก การบล็อก "User-agent" ทั้งหมดจะมี มาตรฐานสำหรับ robots.txtชุดคำสั่ง นอกจากนี้ คุณสามารถติดตั้งโดยใช้ “ตัวแทนผู้ใช้” ที่แตกต่างกันได้ ข้อห้ามในการจัดทำดัชนีใน robots.txt สำหรับ Yandexแต่ ตัวอย่างเช่น ไม่ใช่สำหรับ Google
เป็นที่น่าสังเกตว่า Yandex คำนึงถึงคำสั่งที่สำคัญเช่น "โฮสต์" และ robots.txt ที่ถูกต้องสำหรับ Yandex ควรมีคำสั่งนี้เพื่อระบุมิเรอร์หลักของไซต์ เราจะดูคำสั่ง "โฮสต์" โดยละเอียดด้านล่าง
ปิดใช้งานการจัดทำดัชนี: robots.txt ไม่อนุญาต
Disallow - ห้ามคำสั่งซึ่งมักใช้ในไฟล์ robots.txt Disallow ป้องกันการจัดทำดัชนีของไซต์หรือบางส่วน ขึ้นอยู่กับเส้นทางที่ระบุในพารามิเตอร์คำสั่ง Disallow
ตัวอย่างวิธีป้องกันการจัดทำดัชนีไซต์ใน robots.txt:
ตัวแทนผู้ใช้: * Disallow: /
ตัวอย่างนี้บล็อกทั้งไซต์จากการจัดทำดัชนีสำหรับโรบ็อตทั้งหมด
พารามิเตอร์คำสั่ง Disallow อนุญาตให้ใช้อักขระพิเศษ * และ $:
* - จำนวนอักขระเท่าใดก็ได้ เช่น พารามิเตอร์ /page* เป็นไปตาม /page, /page1, /page-be-cool, /page/kak-skazat เป็นต้น อย่างไรก็ตาม ไม่จำเป็นต้องระบุ * ที่ส่วนท้ายของแต่ละพารามิเตอร์ เนื่องจากตัวอย่างคำสั่งต่อไปนี้ได้รับการตีความเหมือนกัน:
ตัวแทนผู้ใช้: Yandex Disallow: /page ตัวแทนผู้ใช้: Yandex Disallow: /page*
$ - ระบุการจับคู่ที่ตรงกันทุกประการของข้อยกเว้นกับค่าพารามิเตอร์:
User-agent: Googlebot Disallow: /page$
ในกรณีนี้ คำสั่ง Disallow จะไม่อนุญาต /page แต่จะไม่ห้ามการจัดทำดัชนีของหน้า /page1, /page-be-cool หรือ /page/kak-skazat
ถ้า ปิดการจัดทำดัชนีไซต์ robots.txtเครื่องมือค้นหาอาจตอบสนองต่อการย้ายนี้โดยมีข้อผิดพลาด “ถูกบล็อกในไฟล์ robots.txt” หรือ “url ถูกจำกัดโดย robots.txt” (URL ถูกห้ามโดยไฟล์ robots.txt) หากคุณต้องการ ปิดการใช้งานการจัดทำดัชนีหน้าคุณสามารถใช้ได้ไม่เพียงแต่ robots txt เท่านั้น แต่ยังสามารถใช้แท็ก html ที่คล้ายกันได้ด้วย:
- - ไม่จัดทำดัชนีเนื้อหาของหน้า;
- - ห้ามติดตามลิงค์บนหน้า;
- - ห้ามจัดทำดัชนีเนื้อหาและติดตามลิงก์บนหน้า;
- - คล้ายกับเนื้อหา = "ไม่มี"
อนุญาตการจัดทำดัชนี: robots.txt อนุญาต
อนุญาต - คำสั่งอนุญาตและตรงกันข้ามกับคำสั่ง Disallow คำสั่งนี้มีไวยากรณ์คล้ายกับ Disallow
ตัวอย่างวิธีห้ามการจัดทำดัชนีของเว็บไซต์ยกเว้นบางหน้าใน robots.txt:
ตัวแทนผู้ใช้: * Disallow: /Allow: /page
ห้ามจัดทำดัชนีทั้งไซต์ยกเว้นหน้าที่ขึ้นต้นด้วย /page
ไม่อนุญาตและอนุญาตโดยมีค่าพารามิเตอร์ว่างเปล่า
คำสั่ง Disallow ว่างเปล่า:
ตัวแทนผู้ใช้: * ไม่อนุญาต:
ห้ามห้ามสิ่งใดหรืออนุญาตให้มีการจัดทำดัชนีทั้งไซต์และเทียบเท่ากับ:
ตัวแทนผู้ใช้: * อนุญาต: /
คำสั่งอนุญาตให้ว่างเปล่า:
ตัวแทนผู้ใช้: * อนุญาต:
การไม่อนุญาตหรือห้ามการจัดทำดัชนีไซต์โดยสิ้นเชิงจะเทียบเท่ากับ:
ตัวแทนผู้ใช้: * Disallow: /
มิเรอร์เว็บไซต์หลัก: โฮสต์ robots.txt
คำสั่งโฮสต์ใช้เพื่อระบุให้หุ่นยนต์ Yandex เป็นมิเรอร์หลักของไซต์ของคุณ- ในบรรดาเสิร์ชเอ็นจิ้นยอดนิยมทั้งหมดคำสั่ง โฮสต์ได้รับการยอมรับโดยหุ่นยนต์ Yandex เท่านั้น- คำสั่งโฮสต์มีประโยชน์หากเว็บไซต์ของคุณสามารถเข้าถึงได้ผ่านหลายช่องทาง เช่น:
Mysite.ru mysite.com
หรือเพื่อกำหนดลำดับความสำคัญระหว่าง:
Mysite.ru www.mysite.ru
คุณสามารถบอกหุ่นยนต์ยานเดกซ์ได้ว่ากระจกตัวไหนเป็นกระจกหลัก- คำสั่งโฮสต์ระบุไว้ในบล็อกคำสั่ง "User-agent: Yandex" และในฐานะพารามิเตอร์ ที่อยู่ไซต์ที่ต้องการโดยไม่มี "http://" จะถูกระบุ
ตัวอย่าง robots.txt ที่ระบุมิเรอร์หลัก:
ตัวแทนผู้ใช้: Yandex Disallow: /page Host: mysite.ru
ชื่อโดเมน mysite.ru ที่ไม่มี www จะถูกระบุว่าเป็นมิเรอร์หลัก ดังนั้นที่อยู่ประเภทนี้จะถูกระบุในผลการค้นหา
ตัวแทนผู้ใช้: Yandex Disallow: /page Host: www.mysite.ru
ชื่อโดเมน www.mysite.ru ถูกระบุเป็นมิเรอร์หลัก
คำสั่งโฮสต์ในไฟล์ robots.txtสามารถใช้ได้เพียงครั้งเดียว แต่หากมีการระบุคำสั่ง Host มากกว่าหนึ่งครั้ง เฉพาะคำสั่งแรกเท่านั้นที่จะนำมาพิจารณา ส่วนคำสั่ง Host อื่นๆ จะถูกละเว้น
หากคุณต้องการระบุมิเรอร์หลักสำหรับ Googlebot ให้ใช้บริการ Google Webmaster Tools
แผนผังไซต์: แผนผังไซต์ robots.txt
เมื่อใช้คำสั่ง Sitemap คุณสามารถระบุตำแหน่งบนเว็บไซต์ใน robots.txt
ตัวอย่างของ robots.txt ที่ระบุที่อยู่แผนผังไซต์:
ตัวแทนผู้ใช้: * ไม่อนุญาต: /page แผนผังไซต์: http://www.mysite.ru/sitemap.xml
การระบุที่อยู่แผนผังเว็บไซต์ผ่านทาง คำสั่งแผนผังไซต์ใน robots.txtช่วยให้โรบ็อตการค้นหาสามารถค้นหาเกี่ยวกับการมีอยู่ของแผนผังเว็บไซต์และเริ่มสร้างดัชนีได้
คำสั่ง Clean-param
คำสั่ง Clean-param ช่วยให้คุณสามารถยกเว้นหน้าที่มีพารามิเตอร์ไดนามิกจากการจัดทำดัชนี หน้าเว็บที่คล้ายกันสามารถแสดงเนื้อหาเดียวกันได้ แต่มี URL ของหน้าเว็บที่แตกต่างกัน พูดง่ายๆ ก็คือเหมือนกับว่าเพจสามารถเข้าถึงได้จากที่อยู่ที่แตกต่างกัน หน้าที่ของเราคือการลบที่อยู่แบบไดนามิกที่ไม่จำเป็นออกทั้งหมด ซึ่งอาจมีอยู่นับล้านรายการ ในการดำเนินการนี้ เราจะยกเว้นพารามิเตอร์ไดนามิกทั้งหมด ใช้คำสั่ง Clean-param ใน robots.txt.
ไวยากรณ์ของคำสั่ง Clean-param คือ:
ทำความสะอาดพารามิเตอร์: parm1[&parm2&parm3&parm4&..&parmn] [เส้นทาง]
ลองดูตัวอย่างหน้าเว็บที่มี URL ต่อไปนี้:
www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3
ตัวอย่าง robots.txt Clean-param:
Clean-param: parm1&parm2&parm3 /page.html # สำหรับ page.html เท่านั้น
Clean-param: parm1&parm2&parm3 / # สำหรับทุกคน
คำสั่งการรวบรวมข้อมูลล่าช้า
คำแนะนำนี้ช่วยให้คุณสามารถลดภาระบนเซิร์ฟเวอร์ได้หากโรบอตเยี่ยมชมไซต์ของคุณบ่อยเกินไป คำสั่งนี้เกี่ยวข้องกับไซต์ที่มีหน้าจำนวนมากเป็นหลัก
ตัวอย่างการรวบรวมข้อมูลของ robots.txt-delay:
ตัวแทนผู้ใช้: Yandex Disallow: /page Crawl-delay: 3
ในกรณีนี้ เรา "ขอให้" หุ่นยนต์ Yandex ดาวน์โหลดหน้าเว็บไซต์ของเราไม่เกินหนึ่งครั้งทุกๆ สามวินาที เครื่องมือค้นหาบางตัวรองรับรูปแบบนี้ ตัวเลขเศษส่วนเป็นพารามิเตอร์ คำสั่ง robots.txt ที่ล่าช้าในการรวบรวมข้อมูล.
วัตถุประสงค์ของคู่มือนี้คือเพื่อช่วยให้ผู้ดูแลเว็บและผู้ดูแลระบบใช้ robots.txt
การแนะนำ
มาตรฐานการยกเว้นของหุ่นยนต์นั้นมีพื้นฐานง่ายมาก กล่าวโดยย่อมันทำงานดังนี้:
เมื่อโรบอตที่ปฏิบัติตามมาตรฐานเข้าชมไซต์ อันดับแรกโรบอตจะขอไฟล์ชื่อ “/robots.txt” หากพบไฟล์ดังกล่าว โรบอตจะค้นหาคำแนะนำในการห้ามจัดทำดัชนีบางส่วนของไซต์
ตำแหน่งที่จะวางไฟล์ robots.txt
โรบ็อตเพียงขอ URL “/robots.txt” บนไซต์ของคุณ ไซต์ในกรณีนี้คือโฮสต์เฉพาะบนพอร์ตเฉพาะ
URL ของไซต์ | URL ไฟล์ Robots.txt |
http://www.w3.org/ | http://www.w3.org/robots.txt |
http://www.w3.org:80/ | http://www.w3.org:80/robots.txt |
http://www.w3.org:1234/ | http://www.w3.org:1234/robots.txt |
http://w3.org/ | http://w3.org/robots.txt |
ไซต์มีไฟล์ “/robots.txt” ได้เพียงไฟล์เดียวเท่านั้น ตัวอย่างเช่น คุณไม่ควรวางไฟล์ robots.txt ไว้ในไดเร็กทอรีย่อยของผู้ใช้ เพราะโรบ็อตจะไม่ค้นหาไฟล์เหล่านั้นที่นั่น หากคุณต้องการสร้างไฟล์ robots.txt ในไดเรกทอรีย่อย คุณต้องมีวิธีรวบรวมไฟล์เหล่านั้นโดยทางโปรแกรมให้เป็นไฟล์ robots.txt ไฟล์เดียวซึ่งอยู่ที่รากของไซต์ คุณสามารถใช้.
โปรดจำไว้ว่า URL คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ และชื่อไฟล์ “/robots.txt” จะต้องเขียนด้วยตัวพิมพ์เล็กทั้งหมด
ตำแหน่ง robots.txt ไม่ถูกต้อง | |
http://www.w3.org/admin/robots.txt | |
http://www.w3.org/~timbl/robots.txt | ไฟล์ไม่ได้อยู่ที่รากของไซต์ |
ftp://ftp.w3.com/robots.txt | โรบ็อตไม่สร้างดัชนี ftp |
http://www.w3.org/Robots.txt | ชื่อไฟล์ไม่ใช่ตัวพิมพ์เล็ก |
อย่างที่คุณเห็น ไฟล์ robots.txt ควรวางไว้ที่รากของไซต์โดยเฉพาะ
สิ่งที่ต้องเขียนในไฟล์ robots.txt
ไฟล์ robots.txt มักจะมีเนื้อหาดังนี้:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /tmp/
ไม่อนุญาต: /~โจ/
ในตัวอย่างนี้ ห้ามสร้างดัชนีของสามไดเร็กทอรี
โปรดทราบว่าแต่ละไดเร็กทอรีจะแสดงรายการในบรรทัดแยกกัน คุณไม่สามารถเขียน "Disallow: /cgi-bin/ /tmp/" ได้ คุณไม่สามารถแยกคำสั่ง Disallow หรือ User-agent ออกเป็นหลายบรรทัดได้เนื่องจาก ตัวแบ่งบรรทัดใช้เพื่อแยกคำสั่งออกจากกัน
ไม่สามารถใช้นิพจน์ทั่วไปและไวด์การ์ดได้เช่นกัน “เครื่องหมายดอกจัน” (*) ในคำสั่ง User-agent หมายถึง “โรบ็อตใดๆ” ไม่รองรับคำสั่ง เช่น “Disallow: *.gif” หรือ “User-agent: Ya*”
คำแนะนำเฉพาะใน robots.txt ขึ้นอยู่กับเว็บไซต์ของคุณและสิ่งที่คุณต้องการป้องกันไม่ให้มีการจัดทำดัชนี นี่คือตัวอย่างบางส่วน:
บล็อกทั้งไซต์ไม่ให้ถูกจัดทำดัชนีโดยโรบอตทั้งหมด
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /
อนุญาตให้โรบอตทั้งหมดจัดทำดัชนีทั้งไซต์
ตัวแทนผู้ใช้: *
ไม่อนุญาต:
หรือคุณสามารถสร้างไฟล์เปล่า “/robots.txt” ก็ได้
บล็อกไดเร็กทอรีเพียงไม่กี่รายการจากการจัดทำดัชนี
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /tmp/
ไม่อนุญาต: /ส่วนตัว/
ป้องกันการจัดทำดัชนีไซต์สำหรับหุ่นยนต์เพียงตัวเดียว
ตัวแทนผู้ใช้: BadBot
ไม่อนุญาต: /
อนุญาตให้โรบอตตัวหนึ่งจัดทำดัชนีไซต์และปฏิเสธตัวอื่นๆ ทั้งหมด
ตัวแทนผู้ใช้: Yandex
ไม่อนุญาต:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /
ปฏิเสธไฟล์ทั้งหมด ยกเว้นไฟล์เดียวจากการจัดทำดัชนี
ซึ่งค่อนข้างยากเพราะว่า... ไม่มีคำสั่ง "อนุญาต" แต่คุณสามารถย้ายไฟล์ทั้งหมดได้ ยกเว้นไฟล์ที่คุณต้องการอนุญาตให้จัดทำดัชนีลงในไดเรกทอรีย่อยและป้องกันไม่ให้มีการจัดทำดัชนี:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /docs/
หรือคุณสามารถห้ามไฟล์ทั้งหมดที่ถูกห้ามไม่ให้จัดทำดัชนี:
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /private.html
ไม่อนุญาต: /foo.html
ไม่อนุญาต: /bar.html
ด้านเทคนิคของไซต์ที่สร้างขึ้นมีบทบาทสำคัญเท่าเทียมกันในการโปรโมตไซต์ เครื่องมือค้นหามากกว่าการเติมเต็ม หนึ่งในประเด็นทางเทคนิคที่สำคัญที่สุดคือการจัดทำดัชนีไซต์ เช่น การกำหนดพื้นที่ของไซต์ (ไฟล์และไดเร็กทอรี) ที่สามารถหรือไม่สามารถจัดทำดัชนีโดยโรบอตเครื่องมือค้นหา เพื่อจุดประสงค์เหล่านี้ จะใช้ robots.txt ซึ่งเป็นไฟล์พิเศษที่มีคำสั่งสำหรับโรบ็อตเครื่องมือค้นหา ไฟล์ robots.txt ที่ถูกต้องสำหรับ Yandex และ Google จะช่วยคุณหลีกเลี่ยงผลที่ไม่พึงประสงค์มากมายที่เกี่ยวข้องกับการจัดทำดัชนีไซต์
2. แนวคิดของไฟล์ robots.txt และข้อกำหนดของไฟล์
ไฟล์ /robots.txt มีวัตถุประสงค์เพื่อสั่งให้โรบ็อตค้นหา (สไปเดอร์) ทั้งหมดจัดทำดัชนีเซิร์ฟเวอร์ข้อมูลตามที่กำหนดไว้ในไฟล์นี้ เช่น เฉพาะไดเร็กทอรีและไฟล์เซิร์ฟเวอร์ที่ไม่ได้อธิบายไว้ใน /robots.txt ไฟล์นี้ควรมีบันทึกตั้งแต่ 0 รายการขึ้นไปที่เกี่ยวข้องกับโรบ็อตบางตัว (ตามที่กำหนดโดยค่าของฟิลด์ agent_id) และระบุสำหรับโรบ็อตแต่ละตัวหรือสำหรับทั้งหมดในคราวเดียวถึงสิ่งที่พวกเขาไม่จำเป็นต้องสร้างดัชนี
ไวยากรณ์ของไฟล์ช่วยให้คุณสามารถตั้งค่าพื้นที่การจัดทำดัชนีที่จำกัด ทั้งสำหรับโรบ็อตทั้งหมดและสำหรับโรบ็อตเฉพาะ
ไฟล์ robots.txt มีข้อกำหนดพิเศษ การไม่ปฏิบัติตามซึ่งอาจส่งผลให้โรบ็อตของเครื่องมือค้นหาอ่านไม่ถูกต้องหรือทำให้ไฟล์ไม่สามารถใช้งานได้โดยทั่วไป
ข้อกำหนดพื้นฐาน:
- ตัวอักษรทั้งหมดในชื่อไฟล์จะต้องเป็นตัวพิมพ์ใหญ่ กล่าวคือ จะต้องเป็นตัวพิมพ์เล็ก:
- robots.txt ถูกต้อง
- Robots.txt หรือ ROBOTS.TXT – ไม่ถูกต้อง
- ไฟล์ robots.txt ต้องสร้างในรูปแบบข้อความ Unix เมื่อคัดลอกไฟล์นี้ไปยังเว็บไซต์ ไคลเอนต์ ftp จะต้องได้รับการกำหนดค่าสำหรับโหมดการแลกเปลี่ยนไฟล์ข้อความ
- ต้องวางไฟล์ robots.txt ไว้ในไดเร็กทอรีรากของไซต์
3. เนื้อหาของไฟล์ robots.txt
ไฟล์ robots.txt มีสองรายการ: "User-agent" และ "Disallow" ชื่อของรายการเหล่านี้ไม่คำนึงถึงขนาดตัวพิมพ์
เครื่องมือค้นหาบางรายการยังรองรับรายการเพิ่มเติมอีกด้วย ตัวอย่างเช่นเครื่องมือค้นหา Yandex ใช้บันทึก "โฮสต์" เพื่อกำหนดมิเรอร์หลักของไซต์ (มิเรอร์หลักของไซต์คือไซต์ที่อยู่ในดัชนีเครื่องมือค้นหา)
แต่ละรายการมีวัตถุประสงค์ของตัวเองและสามารถปรากฏได้หลายครั้ง ขึ้นอยู่กับจำนวนหน้าและ/หรือไดเร็กทอรีที่ถูกบล็อกจากการจัดทำดัชนีและจำนวนโรบ็อตที่คุณติดต่อ
รูปแบบบรรทัดที่ต้องการสำหรับไฟล์ robots.txt จะเป็นดังนี้:
post_name[ไม่จำเป็น
ช่องว่าง] : [ไม่จำเป็น
ช่องว่าง] ความหมาย[ช่องว่างเพิ่มเติม]
เพื่อให้ไฟล์ robots.txt ได้รับการพิจารณาว่าถูกต้อง จะต้องมีคำสั่ง "Disallow" อย่างน้อย 1 รายการต่อท้ายรายการ "User-agent"
ไฟล์ robots.txt ที่ว่างเปล่าโดยสิ้นเชิงจะเทียบเท่ากับการไม่มีไฟล์ robots.txt ซึ่งหมายถึงการอนุญาตให้จัดทำดัชนีทั้งไซต์
รายการตัวแทนผู้ใช้
รายการ “User-agent” ต้องมีชื่อของโรบ็อตการค้นหา ในรายการนี้ คุณสามารถบอกโรบ็อตแต่ละตัวว่าหน้าใดของเว็บไซต์ที่จะจัดทำดัชนีและหน้าใดไม่ทำดัชนี
ตัวอย่างของรายการ “User-agent” ซึ่งเข้าถึงเครื่องมือค้นหาทั้งหมดโดยไม่มีข้อยกเว้น และใช้สัญลักษณ์ “*”:
ตัวอย่างของบันทึก “User-agent” ซึ่งมีการติดต่อเฉพาะหุ่นยนต์เครื่องมือค้นหาของ Rambler เท่านั้น:
ตัวแทนผู้ใช้: StackRambler
หุ่นยนต์เครื่องมือค้นหาแต่ละตัวมีชื่อของตัวเอง มีสองวิธีหลักในการค้นหา (ชื่อ):
บนเว็บไซต์ของเสิร์ชเอ็นจิ้นหลายแห่งมีส่วน "ช่วยเหลือผู้ดูแลเว็บ" เฉพาะทางซึ่งมักจะระบุชื่อของโรบ็อตการค้นหา
เมื่อดูบันทึกของเว็บเซิร์ฟเวอร์ เช่น เมื่อดูการเรียกไปยังไฟล์ robots.txt คุณจะเห็นชื่อจำนวนมากที่มีชื่อของเครื่องมือค้นหาหรือบางส่วน ดังนั้นสิ่งที่คุณต้องทำคือเลือกชื่อที่ต้องการและป้อนลงในไฟล์ robots.txt
รายการ "ไม่อนุญาต"
บันทึก "ไม่อนุญาต" ต้องมีคำแนะนำที่ระบุให้โรบ็อตค้นหาทราบจากบันทึก "ตัวแทนผู้ใช้" ว่าไฟล์และ/หรือไดเร็กทอรีใดบ้างที่ไม่ได้รับอนุญาตจากการจัดทำดัชนี
ลองพิจารณาดู ตัวอย่างต่างๆบันทึก "ไม่อนุญาต"
ตัวอย่างรายการใน robots.txt (อนุญาตให้ทุกอย่างจัดทำดัชนี):
ไม่อนุญาต:
ตัวอย่าง (ห้ามใช้ไซต์นี้โดยสมบูรณ์ ใช้สัญลักษณ์ “/” สำหรับสิ่งนี้): ไม่อนุญาต: /
ตัวอย่าง (ไฟล์ “page.htm” ที่อยู่ในไดเร็กทอรีรากและไฟล์ “page2.htm” ที่อยู่ในไดเร็กทอรี “dir” ไม่ได้รับอนุญาตให้จัดทำดัชนี):
ไม่อนุญาต: /page.htm
ไม่อนุญาต: /dir/page2.htm
ตัวอย่าง (ไดเร็กทอรี “cgi-bin” และ “ฟอรั่ม” ดังนั้น เนื้อหาทั้งหมดของไดเร็กทอรีนี้จึงไม่ได้รับอนุญาตสำหรับการจัดทำดัชนี):
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /forum/
คุณสามารถบล็อกเอกสารและ (หรือ) ไดเร็กทอรีจำนวนหนึ่งที่เริ่มต้นด้วยอักขระเดียวกันจากการจัดทำดัชนีโดยใช้รายการ "Disallow" เพียงรายการเดียว ในการดำเนินการนี้ คุณจะต้องป้อนอักขระเริ่มต้นที่เหมือนกันโดยไม่มีเครื่องหมายทับ
ตัวอย่าง (ไดเร็กทอรี “dir” ถูกห้ามสำหรับการจัดทำดัชนี เช่นเดียวกับไฟล์และไดเร็กทอรีทั้งหมดที่ขึ้นต้นด้วยตัวอักษร “dir” เช่น ไฟล์: “dir.htm”, “direct.htm”, ไดเร็กทอรี: “dir”, “directory1 ” ", "ไดเรกทอรี2" ฯลฯ):
รายการ "อนุญาต"
ตัวเลือก "อนุญาต" ใช้เพื่อแสดงข้อยกเว้นจากไดเร็กทอรีและเพจที่ไม่สามารถจัดทำดัชนีได้ซึ่งระบุโดยรายการ "ไม่อนุญาต"
ตัวอย่างเช่น มีบันทึกดังนี้:
ไม่อนุญาต: /forum/
แต่ในกรณีนี้ จำเป็นต้องสร้างดัชนีเพจ page1 ในไดเร็กทอรี /forum/ จากนั้นจะต้องมีบรรทัดต่อไปนี้ในไฟล์ robots.txt:
ไม่อนุญาต: /forum/
อนุญาต: /forum/page1
รายการแผนผังไซต์
รายการนี้ระบุตำแหน่งของแผนผังเว็บไซต์ในรูปแบบ xml ซึ่งใช้โดยโรบ็อตการค้นหา รายการนี้ระบุเส้นทางไปยังไฟล์นี้
แผนผังเว็บไซต์: http://site.ru/sitemap.xml
รายการ "โฮสต์"
เครื่องมือค้นหา Yandex ใช้บันทึก "โฮสต์" มีความจำเป็นต้องกำหนดมิเรอร์หลักของไซต์ เช่น หากไซต์มีมิเรอร์ (มิเรอร์เป็นสำเนาบางส่วนหรือทั้งหมดของไซต์ บางครั้งการมีทรัพยากรที่ซ้ำกันเป็นสิ่งจำเป็นสำหรับเจ้าของไซต์ที่มีผู้เยี่ยมชมสูงเพื่อเพิ่มความน่าเชื่อถือและ ความพร้อมใช้งานของบริการ) จากนั้นใช้คำสั่ง "โฮสต์" คุณสามารถเลือกชื่อที่คุณต้องการจัดทำดัชนีได้ มิฉะนั้นยานเดกซ์จะเลือกมิเรอร์หลักด้วยตัวเองและชื่ออื่น ๆ จะถูกห้ามไม่ให้สร้างดัชนี
เพื่อให้เข้ากันได้กับโรบ็อตการค้นหา ซึ่งไม่ยอมรับคำสั่ง Host เมื่อประมวลผลไฟล์ robots.txt จำเป็นต้องเพิ่มรายการ "Host" ทันทีหลังรายการ Disallow
ตัวอย่าง: www.site.ru – กระจกหลัก:
โฮสต์: www.site.ru
การบันทึก "การรวบรวมข้อมูลล่าช้า"
รายการนี้รับรู้โดยยานเดกซ์ มันเป็นคำสั่งสำหรับหุ่นยนต์ที่จะใช้ระยะเวลาที่กำหนด (เป็นวินาที) ระหว่างหน้าการจัดทำดัชนี บางครั้งสิ่งนี้จำเป็นเพื่อป้องกันไซต์จากการโอเวอร์โหลด
ดังนั้นรายการต่อไปนี้หมายความว่าหุ่นยนต์ Yandex จำเป็นต้องย้ายจากหน้าหนึ่งไปอีกหน้าหนึ่งไม่เร็วกว่า 3 วินาที:
ความคิดเห็น
บรรทัดใดๆ ใน robots.txt ที่ขึ้นต้นด้วยอักขระ "#" จะถือเป็นความคิดเห็น อนุญาตให้แสดงความคิดเห็นที่ส่วนท้ายของบรรทัดคำสั่ง แต่โรบ็อตบางตัวอาจไม่รู้จักบรรทัดอย่างถูกต้อง
ตัวอย่าง (ความคิดเห็นอยู่ในบรรทัดเดียวกับคำสั่ง):
ไม่อนุญาต: /cgi-bin/ #comment
ขอแนะนำให้วางความคิดเห็นไว้ในบรรทัดแยกต่างหาก อนุญาตให้เว้นวรรคที่ต้นบรรทัดได้ แต่ไม่แนะนำ
4. ตัวอย่างไฟล์ robots.txt
ตัวอย่าง (ความคิดเห็นอยู่ในบรรทัดแยก):
ไม่อนุญาต: /cgi-bin/#comment
ตัวอย่างไฟล์ robots.txt ที่อนุญาตให้โรบ็อตทั้งหมดจัดทำดัชนีทั้งไซต์:
โฮสต์: www.site.ru
ตัวอย่างไฟล์ robots.txt ที่ห้ามไม่ให้โรบ็อตทั้งหมดจัดทำดัชนีไซต์:
โฮสต์: www.site.ru
ตัวอย่างไฟล์ robots.txt ที่ห้ามมิให้โรบ็อตทั้งหมดสร้างดัชนีไดเร็กทอรี “abc” รวมถึงไดเร็กทอรีและไฟล์ทั้งหมดที่ขึ้นต้นด้วยอักขระ “abc”
โฮสต์: www.site.ru
ตัวอย่างของไฟล์ robots.txt ที่ป้องกันไม่ให้หน้า “page.htm” ที่อยู่ในไดเรกทอรีรากของเว็บไซต์ไม่ได้รับการจัดทำดัชนีโดยโรบ็อตการค้นหาของ Googlebot:
ตัวแทนผู้ใช้: googlebot
ไม่อนุญาต: /page.htm
โฮสต์: www.site.ru
ตัวอย่างไฟล์ robots.txt ที่ห้ามการจัดทำดัชนี:
– ไปยังโรบ็อต “googlebot” – หน้า “page1.htm” ที่อยู่ในไดเร็กทอรี “ไดเรกทอรี”
– ไปยังโรบ็อต “Yandex” – ไดเรกทอรีและเพจทั้งหมดที่ขึ้นต้นด้วยสัญลักษณ์ “dir” (/dir/, /direct/, dir.htm, ทิศทาง.htm ฯลฯ) และอยู่ในไดเรกทอรีรากของเว็บไซต์
ตัวแทนผู้ใช้: googlebot
ไม่อนุญาต: /directory/page1.htm
ตัวแทนผู้ใช้: Yandex
5. ข้อผิดพลาดที่เกี่ยวข้องกับไฟล์ robots.txt
ข้อผิดพลาดที่พบบ่อยที่สุดประการหนึ่งคือไวยากรณ์กลับด้าน
ผิด:
ไม่อนุญาต: Yandex
ขวา:
ตัวแทนผู้ใช้: Yandex
ผิด:
ไม่อนุญาต: /dir/ /cgi-bin/ /forum/
ขวา:
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /forum/
เมื่อประมวลผลข้อผิดพลาด 404 (ไม่พบเอกสาร) หากเว็บเซิร์ฟเวอร์แสดงหน้าพิเศษ และไฟล์ robots.txt หายไป อาจเป็นไปได้ที่โรบอตการค้นหาจะได้รับเมื่อร้องขอไฟล์ robots.txt หน้าพิเศษซึ่งไม่ใช่ไฟล์ในการจัดการการจัดทำดัชนีทั้งหมด
ข้อผิดพลาดที่เกี่ยวข้องกับการใช้ตัวพิมพ์ไม่ถูกต้องในไฟล์ robots.txt ตัวอย่างเช่น หากคุณต้องการปิดไดเร็กทอรี "cgi-bin" ในรายการ "Disallow" คุณจะไม่สามารถเขียนชื่อของไดเร็กทอรีเป็นตัวพิมพ์ใหญ่ "cgi-bin" ได้
ผิด:
ไม่อนุญาต: /CGI-BIN/
ขวา:
ไม่อนุญาต: /cgi-bin/
ข้อผิดพลาดที่เกี่ยวข้องกับเครื่องหมายทับเปิดหายไปเมื่อปิดไดเร็กทอรีจากการจัดทำดัชนี
ผิด:
ไม่อนุญาต: page.HTML
ขวา:
ไม่อนุญาต: /page.HTML
เพื่อหลีกเลี่ยงข้อผิดพลาดที่พบบ่อยที่สุด คุณสามารถตรวจสอบไฟล์ robots.txt ได้โดยใช้ Yandex.Webmaster หรือ Google Webmaster Tools การตรวจสอบจะดำเนินการหลังจากดาวน์โหลดไฟล์
6. บทสรุป
ดังนั้นการมีไฟล์ robots.txt ตลอดจนการรวบรวมไฟล์อาจส่งผลต่อการโปรโมตเว็บไซต์ในเครื่องมือค้นหา หากไม่ทราบไวยากรณ์ของไฟล์ robots.txt คุณสามารถป้องกันไม่ให้หน้าเว็บที่ได้รับการโปรโมตที่เป็นไปได้ รวมถึงทั้งไซต์ไม่ได้รับการจัดทำดัชนี และในทางกลับกัน การรวบรวมไฟล์นี้อย่างมีประสิทธิภาพสามารถช่วยส่งเสริมทรัพยากรได้อย่างมาก ตัวอย่างเช่น คุณสามารถบล็อกเอกสารที่รบกวนการโปรโมตหน้าที่จำเป็นจากการจัดทำดัชนี