สมัครสมาชิกและอ่าน
ที่น่าสนใจที่สุด
บทความก่อน!

ข้อห้ามของการจัดทำดัชนีใน robots txt วิธีป้องกันการจัดทำดัชนีหน้าที่จำเป็น

จากผู้เขียน:คุณมีหน้าเว็บบนเว็บไซต์ที่ไม่ต้องการให้เครื่องมือค้นหาเห็นหรือไม่ จากบทความนี้ คุณจะได้เรียนรู้รายละเอียดวิธีการป้องกันการจัดทำดัชนีหน้าเว็บใน robots.txt ไม่ว่าจะถูกต้องหรือไม่ และโดยทั่วไปแล้วจะบล็อกการเข้าถึงหน้าเว็บได้อย่างไร

ดังนั้น คุณจึงต้องป้องกันไม่ให้หน้าเว็บบางหน้าถูกจัดทำดัชนี วิธีที่ง่ายที่สุดในการทำเช่นนี้คือในไฟล์ robots.txt โดยเพิ่มบรรทัดที่จำเป็นลงไป ฉันต้องการทราบว่าเราได้ระบุที่อยู่โฟลเดอร์ที่สัมพันธ์กัน URL ของหน้าเว็บที่ระบุในลักษณะเดียวกัน หรือคุณสามารถป้อนเส้นทางที่แน่นอนได้

สมมติว่าบล็อกของฉันมีหน้าเว็บ 2-3 หน้า ได้แก่ รายชื่อติดต่อ เกี่ยวกับฉัน และบริการของฉัน ฉันไม่อยากให้พวกเขาถูกจัดทำดัชนี ดังนั้นเราจึงเขียนว่า:

ตัวแทนผู้ใช้: * Disallow: /kontakty/ Disallow: /about/ Disallow: /uslugi/

อีกทางเลือกหนึ่ง

เยี่ยมมาก แต่นี่ไม่ใช่วิธีเดียวที่จะบล็อกการเข้าถึงของโรบ็อตในบางหน้า ประการที่สองคือการวางเมตาแท็กพิเศษในโค้ด html โดยปกติแล้ว ให้วางเฉพาะในบันทึกที่จำเป็นต้องปิดเท่านั้น ดูเหมือนว่านี้:

< meta name = "robots" content = "noindex,nofollow" >

ต้องวางแท็กในคอนเทนเนอร์ส่วนหัวในเอกสาร html เพื่อให้ทำงานได้อย่างถูกต้อง อย่างที่คุณเห็น มันมีพารามิเตอร์สองตัว ชื่อถูกระบุเป็นโรบ็อตและระบุว่าคำแนะนำเหล่านี้มีไว้สำหรับโปรแกรมรวบรวมข้อมูลเว็บ

พารามิเตอร์เนื้อหาต้องมีสองค่า โดยคั่นด้วยเครื่องหมายจุลภาค ประการแรกคือการห้ามหรือการอนุญาตให้จัดทำดัชนีข้อมูลข้อความบนเพจ ประการที่สองคือการบ่งชี้ว่าจะจัดทำดัชนีลิงก์บนเพจหรือไม่

ดังนั้น หากคุณต้องการให้เพจไม่ถูกจัดทำดัชนีเลย ให้ระบุค่า noindex, nofollow กล่าวคือ ห้ามจัดทำดัชนีข้อความ และห้ามไม่ให้ลิงก์ติดตาม ถ้ามี มีกฎอยู่ว่าหากไม่มีข้อความบนเพจ ก็จะไม่ถูกจัดทำดัชนี กล่าวคือ หากข้อความทั้งหมดปิดอยู่ใน noindex ก็ไม่มีอะไรที่จะจัดทำดัชนี ดังนั้นจึงไม่มีสิ่งใดรวมอยู่ในดัชนี

นอกจากนี้ยังมีค่าต่อไปนี้:

noindex, follow – ห้ามการจัดทำดัชนีข้อความ แต่อนุญาตให้ติดตามลิงก์;

ดัชนี nofollow – สามารถใช้ได้เมื่อควรนำเนื้อหาเข้าสู่ดัชนี แต่ควรปิดลิงก์ทั้งหมดในนั้น

ดัชนีติดตาม – ค่าเริ่มต้น ทุกสิ่งได้รับอนุญาต

โรบอต.TXT- มาตรฐานข้อยกเว้นสำหรับโรบ็อต - ไฟล์ในรูปแบบข้อความ .txt เพื่อจำกัดการเข้าถึงเนื้อหาของโรบ็อต ไฟล์จะต้องอยู่ในตำแหน่งรากของไซต์ (ที่ /robots.txt) การใช้มาตรฐานเป็นทางเลือก แต่เครื่องมือค้นหาจะปฏิบัติตามกฎที่มีอยู่ใน robots.txt ตัวไฟล์ประกอบด้วยชุดบันทึกของแบบฟอร์ม

:

โดยที่ฟิลด์คือชื่อของกฎ (User-Agent, Disallow, Allow ฯลฯ)

บันทึกจะถูกคั่นด้วยบรรทัดว่างหนึ่งบรรทัดขึ้นไป (ตัวสิ้นสุดบรรทัด: อักขระ CR, CR+LF, LF)

วิธีการกำหนดค่า ROBOTS.TXT อย่างถูกต้อง?

ย่อหน้านี้ระบุข้อกำหนดพื้นฐานสำหรับการตั้งค่าไฟล์ คำแนะนำเฉพาะสำหรับการตั้งค่า ตัวอย่างสำหรับ CMS ยอดนิยม

  • ขนาดไฟล์ต้องไม่เกิน 32 kB
  • การเข้ารหัสต้องเป็น ASCII หรือ UTF-8
  • ไฟล์ robots.txt ที่ถูกต้องต้องมีกฎอย่างน้อยหนึ่งกฎซึ่งประกอบด้วยหลายคำสั่ง แต่ละกฎจะต้องมีคำสั่งต่อไปนี้:
    • โรบ็อตใดที่เป็นกฎนี้สำหรับ (คำสั่ง User-agent)
    • ทรัพยากรใดที่ตัวแทนนี้มีสิทธิ์เข้าถึง (อนุญาตคำสั่ง) หรือทรัพยากรใดที่ไม่สามารถเข้าถึงได้ (ไม่อนุญาต)
  • ทุกกฎและคำสั่งต้องขึ้นบรรทัดใหม่
  • ค่ากฎ Disallow/Allow ต้องขึ้นต้นด้วย / หรือ *
  • ทุกบรรทัดที่ขึ้นต้นด้วยสัญลักษณ์ # หรือบางส่วนของบรรทัดที่ขึ้นต้นด้วยสัญลักษณ์นี้ ถือเป็นความคิดเห็นและจะไม่นำมาพิจารณาโดยตัวแทน

ดังนั้น เนื้อหาขั้นต่ำของไฟล์ robots.txt ที่กำหนดค่าอย่างเหมาะสมจะมีลักษณะดังนี้:

User-agent: * #for all agent Disallow: #nothing is allowance = อนุญาตให้เข้าถึงไฟล์ทั้งหมดได้

จะสร้าง/แก้ไข ROBOTS.TXT ได้อย่างไร?

คุณสามารถสร้างไฟล์โดยใช้โปรแกรมแก้ไขข้อความใดก็ได้ (เช่น Notepad++) หากต้องการสร้างหรือแก้ไขไฟล์ robots.txt โดยปกติคุณจะต้องเข้าถึงเซิร์ฟเวอร์ผ่าน FTP/SSH อย่างไรก็ตาม CMS/CMF จำนวนมากมีอินเทอร์เฟซในตัวสำหรับจัดการเนื้อหาไฟล์ผ่านแผงการดูแลระบบ (“แผงผู้ดูแลระบบ”) สำหรับ ตัวอย่าง: Bitrix, ShopScript และอื่นๆ

เหตุใดจึงจำเป็นต้องมีไฟล์ ROBOTS.TXT บนเว็บไซต์

ดังที่เห็นได้จากคำจำกัดความ robots.txt ช่วยให้คุณสามารถควบคุมพฤติกรรมของโรบ็อตเมื่อเข้าชมไซต์ได้ เช่น กำหนดค่าการจัดทำดัชนีไซต์โดยเครื่องมือค้นหา - ทำให้ไฟล์นี้เป็นส่วนสำคัญของการเพิ่มประสิทธิภาพ SEO ของไซต์ของคุณ คุณลักษณะที่สำคัญที่สุดของ robots.txt คือการห้ามจัดทำดัชนีหน้า/ไฟล์ที่ไม่มีข้อมูลที่เป็นประโยชน์ หรือทั้งไซต์ ซึ่งอาจจำเป็น เช่น สำหรับเวอร์ชันทดสอบของไซต์

ตัวอย่างหลักของสิ่งที่ต้องถูกบล็อกจากการจัดทำดัชนีจะกล่าวถึงด้านล่าง

สิ่งใดควรถูกบล็อกจากการจัดทำดัชนี

ประการแรก คุณควรปิดการใช้งานการจัดทำดัชนีของไซต์ในระหว่างกระบวนการพัฒนาเพื่อหลีกเลี่ยงเพจที่จะไม่ได้อยู่ในเวอร์ชันที่เสร็จสมบูรณ์ของไซต์และเพจที่มีเนื้อหาที่ขาดหายไป/ซ้ำ/ทดสอบรวมอยู่ในดัชนีก่อนที่จะเสร็จสมบูรณ์

ประการที่สอง สำเนาของไซต์ที่สร้างขึ้นเป็นไซต์ทดสอบเพื่อการพัฒนาควรถูกซ่อนจากการจัดทำดัชนี

ประการที่สาม มาดูกันว่าเนื้อหาใดบนเว็บไซต์โดยตรงที่ควรห้ามไม่ให้จัดทำดัชนี

  1. ส่วนการดูแลระบบของไซต์ ไฟล์บริการ
  2. หน้าการอนุญาต/การลงทะเบียนผู้ใช้ ในกรณีส่วนใหญ่ - ส่วนส่วนบุคคลของผู้ใช้ (หากไม่มีการเข้าถึงหน้าส่วนตัวแบบสาธารณะ)
  3. หน้าตะกร้าสินค้าและชำระเงิน การดูคำสั่งซื้อ
  4. หน้าเปรียบเทียบผลิตภัณฑ์ สามารถเลือกเปิดหน้าดังกล่าวเพื่อทำดัชนีได้ หากหน้าเหล่านั้นไม่ซ้ำกัน โดยทั่วไป ตารางเปรียบเทียบคือหน้าเว็บจำนวนนับไม่ถ้วนที่มีเนื้อหาซ้ำกัน
  5. หน้าการค้นหาและการกรองสามารถเปิดทิ้งไว้เพื่อการจัดทำดัชนีได้ก็ต่อเมื่อมีการกำหนดค่าอย่างถูกต้อง: URL แยกกัน กรอกส่วนหัวที่ไม่ซ้ำ เมตาแท็ก ในกรณีส่วนใหญ่ ควรปิดหน้าดังกล่าว
  6. หน้าที่มีการจัดเรียงผลิตภัณฑ์/บันทึก หากมีที่อยู่ต่างกัน
  7. หน้าที่มีแท็ก utm และ openstat ใน URL (รวมถึงแท็กอื่นๆ ทั้งหมด)

ไวยากรณ์ ROBOTS.TXT

ตอนนี้เรามาดูไวยากรณ์ของ robots.txt โดยละเอียดมากขึ้น

บทบัญญัติทั่วไป:

  • แต่ละคำสั่งจะต้องเริ่มต้นด้วยบรรทัดใหม่
  • เส้นต้องไม่ขึ้นต้นด้วยช่องว่าง
  • ค่าของคำสั่งจะต้องอยู่ในหนึ่งบรรทัด
  • ไม่จำเป็นต้องใส่ค่าคำสั่งในเครื่องหมายคำพูด
  • โดยค่าเริ่มต้นสำหรับค่าคำสั่งทั้งหมด a * ถูกเขียนในตอนท้าย ตัวอย่าง:ตัวแทนผู้ใช้: Yandex Disallow: /cgi-bin* # บล็อกการเข้าถึงหน้า Disallow: /cgi-bin # เหมือนกัน
  • การป้อนบรรทัดว่างจะถูกตีความว่าเป็นจุดสิ้นสุดของกฎ User-agent
  • ในคำสั่ง "อนุญาต" และ "ไม่อนุญาต" ระบุเพียงค่าเดียวเท่านั้น
  • ชื่อของไฟล์ robots.txt ไม่อนุญาตให้ใช้ตัวพิมพ์ใหญ่
  • ไม่อนุญาตให้ใช้ robots.txt ที่มีขนาดใหญ่กว่า 32 KB โรบ็อตจะไม่ดาวน์โหลดไฟล์ดังกล่าวและจะถือว่าไซต์นั้นได้รับอนุญาตโดยสมบูรณ์
  • robots.txt ที่ไม่สามารถเข้าถึงได้สามารถตีความได้ว่าได้รับอนุญาตโดยสมบูรณ์
  • robots.txt ที่ว่างเปล่าถือว่าได้รับอนุญาตโดยสมบูรณ์
  • เพื่อระบุค่าซีริลลิกของกฎให้ใช้ Punycod
  • อนุญาตเฉพาะการเข้ารหัส UTF-8 และ ASCII เท่านั้น ไม่อนุญาตให้ใช้ตัวอักษรประจำชาติและอักขระอื่นๆ ใน robots.txt

อักขระพิเศษ:

  • #

    สัญลักษณ์เริ่มต้นความคิดเห็น ข้อความทั้งหมดหลัง # และก่อนตัวแบ่งบรรทัดถือเป็นความคิดเห็นและไม่ได้ใช้โดยโรบ็อต

    *

    ค่าไวด์การ์ดที่แสดงถึงคำนำหน้า ส่วนต่อท้าย หรือค่าทั้งหมดของคำสั่ง - ชุดอักขระใดๆ (รวมทั้งค่าว่างด้วย)

  • $

    บ่งชี้จุดสิ้นสุดของบรรทัด, ห้ามเพิ่ม * ค่า, เปิด ตัวอย่าง:

    User-agent: * #for all อนุญาต: /$ #allow การจัดทำดัชนีของหน้าหลัก Disallow: * #deny การจัดทำดัชนีของทุกหน้า ยกเว้นหน้าที่ได้รับอนุญาต

รายการคำสั่ง

  1. ผู้ใช้ตัวแทน

    คำสั่งบังคับ กำหนดว่ากฎจะใช้กับโรบ็อตตัวใด กฎสามารถมีคำสั่งดังกล่าวได้ตั้งแต่หนึ่งคำสั่งขึ้นไป คุณสามารถใช้อักขระ * เพื่อระบุคำนำหน้า ต่อท้าย หรือ ชื่อเต็มหุ่นยนต์ ตัวอย่าง:

    #ไซต์นี้ปิดให้บริการแก่ Google News และ Google รูปภาพ User-agent: Googlebot-Image User-agent: Googlebot-News Disallow: / #สำหรับโรบ็อตทั้งหมดที่มีชื่อขึ้นต้นด้วย Yandex ให้ปิดส่วน "News" User-agent: Yandex* ไม่อนุญาต: /news #open ให้กับคนอื่นๆ User-agent: * Disallow:

  2. ไม่อนุญาต

    คำสั่งระบุว่าไฟล์หรือไดเร็กทอรีใดที่ไม่สามารถจัดทำดัชนีได้ ค่าของคำสั่งต้องขึ้นต้นด้วยสัญลักษณ์ / หรือ * ตามค่าเริ่มต้น * จะถูกวางไว้ที่ส่วนท้ายของค่า เว้นแต่จะห้ามไว้ด้วยสัญลักษณ์ $

  3. อนุญาต

    แต่ละกฎต้องมีคำสั่ง Disallow: หรือ Allow: อย่างน้อยหนึ่งรายการ

    คำสั่งระบุว่าไฟล์หรือไดเร็กทอรีใดที่ควรจัดทำดัชนี ค่าของคำสั่งต้องขึ้นต้นด้วยสัญลักษณ์ / หรือ * ตามค่าเริ่มต้น * จะถูกวางไว้ที่ส่วนท้ายของค่า เว้นแต่จะห้ามไว้ด้วยสัญลักษณ์ $

    การใช้คำสั่งนี้มีความเกี่ยวข้องเฉพาะกับ Disallow เท่านั้น เพื่ออนุญาตการจัดทำดัชนีของชุดย่อยของหน้าเว็บบางหน้าที่ถูกห้ามไม่ให้จัดทำดัชนีโดยคำสั่ง Disallow

  4. ทำความสะอาดพารามิเตอร์

    คำสั่งทางแยกทางเลือก ใช้คำสั่ง Clean-param หากที่อยู่หน้าไซต์มีพารามิเตอร์ GET (แสดงใน URL หลังเครื่องหมาย?) ที่ไม่ส่งผลกระทบต่อเนื้อหา (เช่น UTM) เมื่อใช้กฎนี้ ที่อยู่ทั้งหมดจะลดลงเป็นรูปแบบเดียว ซึ่งเป็นรูปแบบเดิม โดยไม่มีพารามิเตอร์

    ไวยากรณ์คำสั่ง:

    ทำความสะอาดพารามิเตอร์: p0[&p1&p2&..&pn]

    p0… - ชื่อของพารามิเตอร์ที่ไม่จำเป็นต้องนำมาพิจารณา
    เส้นทาง - คำนำหน้าเส้นทางของเพจที่ใช้กฎ


    ตัวอย่าง.

    เว็บไซต์มีหน้าเช่น

    www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id= 123

    เมื่อกำหนดกฎเกณฑ์แล้ว

    ตัวแทนผู้ใช้: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

    หุ่นยนต์จะลดที่อยู่หน้าทั้งหมดเป็นหนึ่ง:

    www.example.com/some_dir/get_book.pl?book_id=123

  5. แผนผังเว็บไซต์

    คำสั่งทางเลือก คุณสามารถวางคำสั่งดังกล่าวหลายคำสั่งไว้ในไฟล์เดียวแบบตัดกัน (เพียงพอที่จะระบุคำสั่งนั้นเพียงครั้งเดียวในไฟล์ โดยไม่ต้องทำซ้ำสำหรับแต่ละเอเจนต์)

    ตัวอย่าง:

    แผนผังไซต์: https://example.com/sitemap.xml

  6. การรวบรวมข้อมูลล่าช้า

    คำสั่งช่วยให้คุณสามารถตั้งค่าโรบ็อตการค้นหาเป็นระยะเวลาขั้นต่ำ (เป็นวินาที) ระหว่างการสิ้นสุดการโหลดหน้าหนึ่งและการเริ่มโหลดหน้าถัดไป รองรับค่าเศษส่วน

    ค่าต่ำสุดที่ยอมรับได้สำหรับหุ่นยนต์ Yandex คือ 2.0

    Googlebots ไม่เคารพคำสั่งนี้

    ตัวอย่าง:

    User-agent: Yandex Crawl-delay: 2.0 # ตั้งค่าการหมดเวลาเป็น 2 วินาที User-agent: * Crawl-delay: 1.5 # ตั้งค่าการหมดเวลาเป็น 1.5 วินาที

  7. เจ้าภาพ

    คำสั่งระบุมิเรอร์หลักของไซต์ บน ในขณะนี้ในบรรดาเสิร์ชเอ็นจิ้นยอดนิยม รองรับเฉพาะ Mail.ru เท่านั้น

    ตัวอย่าง:

    ตัวแทนผู้ใช้: Mail.Ru Host: www.site.ru # กระจกหลักจาก www

ตัวอย่าง robots.txt สำหรับ CMS ยอดนิยม

ROBOTS.TXT สำหรับ 1C:Bitrix

Bitrix CMS มอบความสามารถในการจัดการเนื้อหาของไฟล์ robots.txt ในการดำเนินการนี้ ในอินเทอร์เฟซผู้ดูแลระบบ คุณต้องไปที่เครื่องมือ “การกำหนดค่า robots.txt” โดยใช้การค้นหา หรือตามเส้นทางการตลาด -> การเพิ่มประสิทธิภาพกลไกค้นหา -> การกำหนดค่า robots.txt คุณยังสามารถเปลี่ยนเนื้อหาของ robots.txt ผ่านโปรแกรมแก้ไขไฟล์ Bitrix ในตัวหรือผ่านทาง FTP

ตัวอย่างด้านล่างสามารถใช้เป็นชุดเริ่มต้นของ robots.txt สำหรับไซต์ Bitrix ได้ แต่ไม่ได้เป็นสากลและต้องมีการปรับเปลี่ยนโดยขึ้นอยู่กับไซต์

คำอธิบาย:

  1. การแยกออกเป็นกฎสำหรับเอเจนต์ต่างๆ เกิดจากการที่ Google ไม่รองรับคำสั่ง Clean-param
ตัวแทนผู้ใช้: Yandex Disallow: */index.php Disallow: /bitrix/ Disallow: /*filter Disallow: /*order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time= Disallow: /*show_sql_stat= Disallow: /*bitrix_include_areas = ไม่อนุญาต: /*clear_cache= ไม่อนุญาต: /*clear_cache_session= ไม่อนุญาต: /*ADD_TO_COMPARE_LIST ไม่อนุญาต: /*ORDER_BY ไม่อนุญาต: /*?print= ไม่อนุญาต: /*&print= ไม่อนุญาต: /*print_course= ไม่อนุญาต: /*?action= ไม่อนุญาต : /*&action= Disallow: /*register= Disallow: /*forgot_password= Disallow: /*change_password= Disallow: /*login= Disallow: /*logout= Disallow: /*auth= Disallow: /*backurl= Disallow: / *back_url= ไม่อนุญาต: /*BACKURL= ไม่อนุญาต: /*BACK_URL= ไม่อนุญาต: /*back_url_admin= ไม่อนุญาต: /*?utm_source= ไม่อนุญาต: /*?bxajaxid= ไม่อนุญาต: /*&bxajaxid= ไม่อนุญาต: /*?view_result= ไม่อนุญาต: /*&view_result= Disallow: /*?PAGEN*& Disallow: /*&PAGEN Allow: */?PAGEN* Allow: /bitrix/components/*/ Allow: /bitrix/cache/*/ Allow: /bitrix/js/* / อนุญาต: /bitrix/templates/*/ อนุญาต: /bitrix/panel/*/ อนุญาต: /bitrix/components/*/*/ อนุญาต: /bitrix/cache/*/*/ อนุญาต: /bitrix/js/*/ */ อนุญาต: /bitrix/templates/*/*/ อนุญาต: /bitrix/panel/*/*/ อนุญาต: /bitrix/components/ อนุญาต: /bitrix/cache/ อนุญาต: /bitrix/js/ อนุญาต: /bitrix/ templates/ Allow: /bitrix/panel/ Clean-Param: PAGEN_1 / Clean-Param: PAGEN_2 / #if ไซต์มีส่วนประกอบเพิ่มเติมที่มีการแบ่งหน้า ให้ทำซ้ำกฎสำหรับตัวเลือกทั้งหมด โดยเปลี่ยนตัวเลข Clean-Param: เรียงลำดับ Clean-Param : utm_source&utm_medium&utm_campaign Clean -Param: openstat User-Agent: * Disallow: */index.php Disallow: /bitrix/ Disallow: /*filter Disallow: /*sort Disallow: /*order Disallow: /*show_include_exec_time= Disallow: /*show_page_exec_time = ไม่อนุญาต: /*show_sql_stat= ไม่อนุญาต: /*bitrix_include_areas= ไม่อนุญาต: /*clear_cache= ไม่อนุญาต: /*clear_cache_session= ไม่อนุญาต: /*ADD_TO_COMPARE_LIST ไม่อนุญาต: /*ORDER_BY ไม่อนุญาต: /*?print= ไม่อนุญาต: /*&print= ไม่อนุญาต: /*print_course = ไม่อนุญาต: /*?action= ไม่อนุญาต: /*&action= ไม่อนุญาต: /*register= ไม่อนุญาต: /*forgot_password= ไม่อนุญาต: /*change_password= ไม่อนุญาต: /*login= ไม่อนุญาต: /*logout= ไม่อนุญาต: / *auth= ไม่อนุญาต: /*backurl= ไม่อนุญาต: /*back_url= ไม่อนุญาต: /*BACKURL= ไม่อนุญาต: /*BACK_URL= ไม่อนุญาต: /*back_url_admin= ไม่อนุญาต: /*?utm_source= ไม่อนุญาต: /*?bxajaxid= ไม่อนุญาต: / *&bxajaxid= ไม่อนุญาต: /*?view_result= ไม่อนุญาต: /*&view_result= ไม่อนุญาต: /*utm_ ไม่อนุญาต: /*openstat= ไม่อนุญาต: /*?PAGEN*& ไม่อนุญาต: /*&PAGEN อนุญาต: */?PAGEN* อนุญาต: / bitrix/components /*/ อนุญาต: /bitrix/cache/*/ อนุญาต: /bitrix/js/*/ อนุญาต: /bitrix/templates/*/ อนุญาต: /bitrix/panel/*/ อนุญาต: /bitrix/components/* /*/ อนุญาต: /bitrix/cache/*/*/ อนุญาต: /bitrix/js/*/*/ อนุญาต: /bitrix/templates/*/*/ อนุญาต: /bitrix/panel/*/*/ อนุญาต: / bitrix/components / อนุญาต: /bitrix/cache/ อนุญาต: /bitrix/js/ อนุญาต: /bitrix/templates/ อนุญาต: /bitrix/panel/ แผนผังไซต์: http://site.com/sitemap.xml #แทนที่ด้วยที่อยู่ ของแผนผังไซต์ของคุณ

ROBOTS.TXT สำหรับเวิร์ดเพรส

ไม่มีเครื่องมือในตัวสำหรับการตั้งค่า robots.txt ในแผงผู้ดูแลระบบ WordPress ดังนั้นการเข้าถึงไฟล์จะทำได้โดยใช้ FTP เท่านั้นหรือหลังจากติดตั้งปลั๊กอินพิเศษ (เช่น DL Robots.txt)

ตัวอย่างด้านล่างนี้สามารถใช้เป็นชุดเริ่มต้นของ robots.txt สำหรับไซต์ Wordpress ได้ แต่ไม่ได้เป็นสากลและต้องมีการปรับเปลี่ยนโดยขึ้นอยู่กับไซต์


คำอธิบาย:

  1. คำสั่ง Allow ระบุเส้นทางไปยังไฟล์ของสไตล์ สคริปต์ และรูปภาพ: เพื่อการจัดทำดัชนีที่เหมาะสมของไซต์ โรบ็อตจะต้องเข้าถึงได้
  2. สำหรับไซต์ส่วนใหญ่ หน้าเก็บถาวรตามผู้เขียนและแท็กจะสร้างเฉพาะเนื้อหาที่ซ้ำกันและไม่สร้างเนื้อหาที่มีประโยชน์ ดังนั้นในตัวอย่างนี้ หน้าเหล่านี้จึงถูกปิดสำหรับการจัดทำดัชนี หากหน้าดังกล่าวในโปรเจ็กต์ของคุณมีความจำเป็น มีประโยชน์ และไม่ซ้ำกัน คุณควรลบคำสั่ง Disallow: /tag/ และ Disallow: /author/

ตัวอย่างของ ROBOTS.TXT ที่ถูกต้องสำหรับไซต์บน WoRdPress:

ตัวแทนผู้ใช้: Yandex # สำหรับ Yandex Disallow: /cgi-bin Disallow: /? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ ฝัง Disallow: /xmlrpc.php Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom อนุญาต: */uploads อนุญาต: /*/*.js อนุญาต: /*/*.css อนุญาต: /wp-* .png อนุญาต: /wp-*.jpg อนุญาต: /wp-*.jpeg อนุญาต: /wp-*.gif Clean-Param: utm_source&utm_medium&utm_campaign Clean-Param: openstat User-agent: * Disallow: /cgi-bin Disallow: / ? Disallow: /wp- Disallow: *?s= Disallow: *&s= Disallow: /search/ Disallow: /author/ Disallow: /users/ Disallow: */trackback Disallow: */feed Disallow: */rss Disallow: */ ฝัง Disallow: /xmlrpc.php Disallow: *?utm Disallow: *openstat= Disallow: /tag/ Disallow: /readme.html Disallow: *?replytocom Allow: */uploads Allow: /*/*.js Allow: /* /*.css อนุญาต: /wp-*.png อนุญาต: /wp-*.jpg อนุญาต: /wp-*.jpeg อนุญาต: /wp-*.gif แผนผังไซต์: http://site.com/sitemap.xml # แทนที่ด้วยที่อยู่ของแผนผังไซต์ของคุณ

ROBOTS.TXT สำหรับ OpenCart

ไม่มีเครื่องมือในตัวสำหรับการกำหนดค่า robots.txt ในแผงผู้ดูแลระบบ OpenCart ดังนั้นการเข้าถึงไฟล์จึงทำได้โดยใช้ FTP เท่านั้น

ตัวอย่างด้านล่างนี้สามารถใช้เป็นชุดเริ่มต้นของ robots.txt สำหรับไซต์ OpenCart ได้ แต่ไม่ได้เป็นสากลและต้องมีการปรับเปลี่ยนโดยขึ้นอยู่กับไซต์


คำอธิบาย:

  1. คำสั่ง Allow ระบุเส้นทางไปยังไฟล์ของสไตล์ สคริปต์ และรูปภาพ: เพื่อการจัดทำดัชนีที่เหมาะสมของไซต์ โรบ็อตจะต้องเข้าถึงได้
  2. การแยกออกเป็นกฎสำหรับตัวแทนที่แตกต่างกันนั้นเกิดจากการที่ Google ไม่รองรับคำสั่ง Clean-param
ตัวแทนผู้ใช้: * Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route=checkout/ Disallow: /*route=product/search Disallow: /index.php?route=product/product *&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /system Disallow: /*?sort= Disallow: /*&sort= Disallow: /*?order= Disallow: /*&order= Disallow: /*?limit= Disallow: /*&limit= Disallow: /*?filter_name= Disallow: /*&filter_name= Disallow: /*?filter_sub_category= Disallow: /*&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*?tracking= Disallow: /*&tracking= Disallow: /*compare-products Disallow: /*search Disallow: /*cart Disallow: /*checkout Disallow: /*login Disallow: /*ออกจากระบบ Disallow: /*vouchers Disallow: /*wishlist Disallow: /*บัญชีของฉัน Disallow: /*ประวัติการสั่งซื้อ Disallow: /*จดหมายข่าว Disallow: /*return-add Disallow: /*ลืมรหัสผ่าน Disallow: /*ดาวน์โหลด Disallow: /*ส่งคืน Disallow: /*ธุรกรรม Disallow: /* สร้างบัญชี ไม่อนุญาต: /*ไม่อนุญาตเป็นประจำ: /*สมุดที่อยู่ ไม่อนุญาต: /*คะแนนรางวัล ไม่อนุญาต: /*พันธมิตรลืมรหัสผ่าน ไม่อนุญาต: /*สร้างบัญชีพันธมิตร ไม่อนุญาต: /*เข้าสู่ระบบพันธมิตร ไม่อนุญาต: / *บริษัทในเครือ Disallow: /*?filter_tag= Disallow: /*brands Disallow: /*specials Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: *utm= Disallow: /*&page Disallow: /*?page*& Allow: / *?page อนุญาต: /catalog/view/javascript/ อนุญาต: /catalog/view/theme/*/ User-agent: Yandex Disallow: /*route=account/ Disallow: /*route=affiliate/ Disallow: /*route= ชำระเงิน/ Disallow: /*route=product/search Disallow: /index.php?route=product/product*&manufacturer_id= Disallow: /admin Disallow: /catalog Disallow: /system Disallow: /*?sort= Disallow: /*&sort = ไม่อนุญาต: /*?order= ไม่อนุญาต: /*&order= ไม่อนุญาต: /*?จำกัด= ไม่อนุญาต: /*&จำกัด= ไม่อนุญาต: /*?filter_name= ไม่อนุญาต: /*&filter_name= ไม่อนุญาต: /*?filter_sub_category= ไม่อนุญาต: / *&filter_sub_category= Disallow: /*?filter_description= Disallow: /*&filter_description= Disallow: /*compare-products Disallow: /*search Disallow: /*cart Disallow: /*checkout Disallow: /*login Disallow: /*logout Disallow: /*logout Disallow: /*vouchers Disallow: /*wishlist Disallow: /*my-account Disallow: /*order-history Disallow: /*newsletter Disallow: /*return-add Disallow: /*ลืมรหัสผ่าน Disallow: /*ดาวน์โหลด Disallow: /* ส่งคืน Disallow: /*ธุรกรรม Disallow: /*สร้างบัญชี ไม่อนุญาต: /*ไม่อนุญาตเป็นประจำ: /*สมุดที่อยู่ ไม่อนุญาต: /*คะแนนรางวัล ไม่อนุญาต: /*affiliate-forgot-password Disallow: /*create-affiliate-account Disallow: /*affiliate-login Disallow: /*affiliates Disallow: /*?filter_tag= Disallow: /*brands Disallow: /*พิเศษ Disallow: /*simpleregister Disallow: /*simplecheckout Disallow: /*&page Disallow: /*?page *& อนุญาต: /*?page อนุญาต: /catalog/view/javascript/ อนุญาต: /catalog/view/theme/*/ Clean-Param: หน้า / Clean-Param: utm_source&utm_medium&utm_campaign / Sitemap: http://site.com/ sitemap.xml #แทนที่ด้วยที่อยู่ของแผนผังไซต์ของคุณ

ROBOTS.TXT สำหรับ Joomla!

ไม่มีเครื่องมือในตัวสำหรับการตั้งค่า robots.txt ในแผงผู้ดูแลระบบ Joomla ดังนั้นการเข้าถึงไฟล์จึงทำได้โดยใช้ FTP เท่านั้น

ตัวอย่างด้านล่างสามารถใช้เป็นชุดเริ่มต้นของ robots.txt สำหรับไซต์ Joomla ที่เปิดใช้งาน SEF ได้ แต่ไม่ใช่แบบสากลและต้องมีการปรับเปลี่ยนโดยขึ้นอยู่กับไซต์


คำอธิบาย:

  1. คำสั่ง Allow ระบุเส้นทางไปยังไฟล์ของสไตล์ สคริปต์ และรูปภาพ: เพื่อการจัดทำดัชนีที่เหมาะสมของไซต์ โรบ็อตจะต้องเข้าถึงได้
  2. การแยกออกเป็นกฎสำหรับตัวแทนที่แตกต่างกันนั้นเกิดจากการที่ Google ไม่รองรับคำสั่ง Clean-param
ตัวแทนผู้ใช้: Yandex ไม่อนุญาต: /*% ไม่อนุญาต: /ผู้ดูแลระบบ/ ไม่อนุญาต: /bin/ ไม่อนุญาต: /แคช/ ไม่อนุญาต: /cli/ ไม่อนุญาต: /ส่วนประกอบ/ ไม่อนุญาต: /รวม/ ไม่อนุญาต: /การติดตั้ง/ ไม่อนุญาต: /ภาษา/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: /component/ Disallow: /search* ไม่อนุญาต: /*mailto/ อนุญาต: /*.css?*$ อนุญาต: /*.less?*$ อนุญาต: /*.js?*$ อนุญาต: /*.jpg?*$ อนุญาต: /*.png?* $ อนุญาต: /*.gif?*$ อนุญาต: /templates/*.css อนุญาต: /templates/*.less อนุญาต: /templates/*.js อนุญาต: /components/*.css อนุญาต: /components/*.less อนุญาต: /media/*.js อนุญาต: /media/*.css อนุญาต: /media/*.less อนุญาต: /index.php?*view=sitemap* #open the sitemap Clean-param: searchword / Clean-param: ขีดจำกัด&ขีดจำกัดเริ่มต้น / Clean-param: คีย์เวิร์ด / ตัวแทนผู้ใช้: * Disallow: /*% Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Disallow: /การติดตั้ง/ Disallow: /ภาษา/ Disallow: /layouts/ Disallow: /libraries/ Disallow: /logs/ Disallow: /log/ Disallow: /tmp/ Disallow: /xmlrpc/ Disallow: /plugins/ Disallow: /modules/ Disallow: /component/ Disallow: /search* Disallow: /*mailto/ Disallow: /*searchword Disallow: /*คำหลัก อนุญาต: /*.css?*$ Allow: /*.less?*$ Allow: /*.js?* $ อนุญาต: /*.jpg?*$ อนุญาต: /*.png?*$ อนุญาต: /*.gif?*$ อนุญาต: /templates/*.css อนุญาต: /templates/*.less อนุญาต: /templates/* .js อนุญาต: /components/*.css อนุญาต: /components/*.less อนุญาต: /media/*.js อนุญาต: /media/*.css อนุญาต: /media/*.less อนุญาต: /index.php?* view=sitemap* #open the sitemap Sitemap: http://your_site_map_address

รายชื่อตัวแทนหลัก

บอท การทำงาน
Googlebot หุ่นยนต์จัดทำดัชนีหลักของ Google
Googlebot-ข่าวสาร Google ข่าวสาร
Googlebot-รูปภาพ Google รูปภาพ
Googlebot-วิดีโอ วิดีโอ
Mediapartners-Google
สื่อพันธมิตร Google AdSense, Google AdSense บนมือถือ
AdsBot-Google การตรวจสอบคุณภาพของหน้า Landing Page
AdsBot-Google-แอพมือถือ Googlebot สำหรับแอป
ยานเดกซ์บอท หุ่นยนต์จัดทำดัชนีหลักของยานเดกซ์
YandexImages Yandex รูปภาพ
Yandexวิดีโอ Yandex.Video
ยานเดกซ์มีเดีย ข้อมูลมัลติมีเดีย
YandexBlogs หุ่นยนต์ค้นหาบล็อก
YandexAddurl โรบ็อตที่เข้าถึงเพจเมื่อเพิ่มผ่านแบบฟอร์ม "เพิ่ม URL"
YandexFavicons หุ่นยนต์ที่จัดทำดัชนีไอคอนเว็บไซต์ (favicons)
YandexDirect Yandex.Direct
YandexMetrika Yandex.Metrica
แค็ตตาล็อกยานเดกซ์ Yandex.Catalog
ยานเดกซ์นิวส์ ยานเดกซ์ข่าว
YandexImageResizer หุ่นยนต์บริการมือถือ
บิงบอต หุ่นยนต์จัดทำดัชนีหลักของ Bing
สลบ หุ่นยนต์จัดทำดัชนีหลัก Yahoo!
Mail.Ru หุ่นยนต์จัดทำดัชนีหลัก Mail.Ru

คำถามที่พบบ่อย

ไฟล์ข้อความ robots.txt สามารถเข้าถึงได้แบบสาธารณะ ดังนั้น โปรดทราบว่าไฟล์นี้ไม่ควรใช้เป็นวิธีการซ่อนข้อมูลที่เป็นความลับ

มีความแตกต่างระหว่าง robots.txt สำหรับ Yandex และ Google หรือไม่

ไม่มีความแตกต่างพื้นฐานในการประมวลผล robots.txt โดยเครื่องมือค้นหา Yandex และ Google แต่ควรเน้นประเด็นหลายประการ:

  • ตามที่ระบุไว้ข้างต้น กฎใน robots.txt ถือเป็นคำแนะนำซึ่ง Google ใช้งานอยู่

    ในเอกสารประกอบสำหรับ robots.txt นั้น Google ระบุว่า “..ไม่ได้มีจุดมุ่งหมายเพื่อป้องกันไม่ให้หน้าเว็บแสดงในผลการค้นหาของ Google “ และ “หากไฟล์ robots.txt ป้องกันไม่ให้ Googlebot ประมวลผลหน้าเว็บ ไฟล์ดังกล่าวอาจยังคงแสดงต่อ Google” หากต้องการยกเว้นหน้าเว็บจากการค้นหาของ Google คุณต้องใช้เมตาแท็กโรบ็อต

    ยานเดกซ์แยกหน้าออกจากการค้นหาตามกฎของ robots.txt

  • Yandex ต่างจาก Google ตรงที่สนับสนุนคำสั่ง Clean-param และ Crawl-delay
  • Google AdsBot ไม่ปฏิบัติตามกฎสำหรับ User-agent: *;
  • แหล่งที่มาหลายแห่งระบุว่าควรเปิดไฟล์สคริปต์และสไตล์ (.js, .css) เพื่อการจัดทำดัชนีโดยโรบ็อตของ Google เท่านั้น ในความเป็นจริงสิ่งนี้ไม่เป็นความจริงและควรเปิดไฟล์เหล่านี้สำหรับ Yandex ด้วย: ตั้งแต่วันที่ 9 พฤศจิกายน 2558 Yandex เริ่มใช้ js และ css เมื่อจัดทำดัชนีไซต์ (โพสต์บล็อกอย่างเป็นทางการ)

จะบล็อกไซต์ไม่ให้สร้างดัชนีใน robots.txt ได้อย่างไร

หากต้องการปิดไซต์ใน Robots.txt คุณต้องใช้กฎข้อใดข้อหนึ่งต่อไปนี้:

ตัวแทนผู้ใช้: * ไม่อนุญาต: / ตัวแทนผู้ใช้: * ไม่อนุญาต: *

มีความเป็นไปได้ที่จะปิดไซต์เพียงเครื่องมือค้นหาเดียว (หรือหลายรายการ) ในขณะที่เหลือความเป็นไปได้ในการจัดทำดัชนีที่เหลือ ในการดำเนินการนี้ คุณต้องเปลี่ยนคำสั่ง User-agent ในกฎ: แทนที่ * ด้วยชื่อของตัวแทนที่คุณต้องการปฏิเสธการเข้าถึง ()

จะเปิดไซต์เพื่อสร้างดัชนีใน robots.txt ได้อย่างไร

ในกรณีปกติ หากต้องการเปิดไซต์สำหรับการจัดทำดัชนีใน robots.txt คุณไม่จำเป็นต้องดำเนินการใดๆ คุณเพียงแค่ต้องแน่ใจว่าไดเร็กทอรีที่จำเป็นทั้งหมดเปิดอยู่ใน robots.txt ตัวอย่างเช่น หากเว็บไซต์ของคุณถูกซ่อนจากการจัดทำดัชนีก่อนหน้านี้ คุณควรลบกฎต่อไปนี้ออกจาก robots.txt (ขึ้นอยู่กับกฎที่ใช้):

  • ไม่อนุญาต: /
  • ไม่อนุญาต: *

โปรดทราบว่าการจัดทำดัชนีสามารถปิดได้ไม่เฉพาะโดยใช้ไฟล์ robots.txt เท่านั้น แต่ยังใช้เมตาแท็ก robots ได้ด้วย

นอกจากนี้ คุณควรทราบด้วยว่าการไม่มีไฟล์ robots.txt อยู่ที่รากของไซต์ หมายความว่าอนุญาตให้จัดทำดัชนีของไซต์ได้

จะระบุมิเรอร์เว็บไซต์หลักใน robots.txt ได้อย่างไร

ในขณะนี้ ไม่สามารถระบุมิเรอร์หลักโดยใช้ robots.txt ได้ ก่อนหน้านี้ Yandex PS ใช้คำสั่ง Host ซึ่งมีการระบุกระจกหลัก แต่ ณ วันที่ 20 มีนาคม 2018 Yandex ละทิ้งการใช้งานโดยสิ้นเชิง ในปัจจุบัน การระบุมิเรอร์หลักสามารถทำได้โดยใช้การเปลี่ยนเส้นทางหน้า 301 เท่านั้น

ไฟล์ robots.txt— ไฟล์ข้อความในรูปแบบ .txt ที่จำกัดการเข้าถึงเนื้อหาบนเซิร์ฟเวอร์ http ของโรบ็อตการค้นหา ยังไง คำนิยาม Robots.txt- นี้ มาตรฐานข้อยกเว้นของหุ่นยนต์ซึ่งได้รับการรับรองโดย W3C เมื่อวันที่ 30 มกราคม พ.ศ. 2537 และเครื่องมือค้นหาส่วนใหญ่ใช้งานโดยสมัครใจ ไฟล์ robots.txt ประกอบด้วยชุดคำสั่งสำหรับโรบ็อตการค้นหาเพื่อป้องกันไม่ให้ไฟล์ หน้าเว็บ หรือไดเรกทอรีบางรายการบนไซต์ถูกจัดทำดัชนี ลองพิจารณาคำอธิบายของ robots.txt สำหรับกรณีที่ไซต์ไม่ได้จำกัดการเข้าถึงของโรบ็อตในไซต์

ตัวอย่าง robots.txt ง่ายๆ:

ตัวแทนผู้ใช้: * อนุญาต: /

โรบ็อตที่นี่อนุญาตให้สร้างดัชนีของทั้งไซต์ได้อย่างสมบูรณ์

ต้องอัปโหลดไฟล์ robots.txt ไปยังไดเรกทอรีรากของเว็บไซต์ของคุณเพื่อให้มีจำหน่ายที่:

Your_site.ru/robots.txt

การวางไฟล์ robots.txt ไว้ที่รากของไซต์มักจะต้องมีการเข้าถึง FTP- อย่างไรก็ตาม ระบบการจัดการ (CMS) บางระบบทำให้สามารถสร้าง robots.txt ได้โดยตรงจากแผงควบคุมไซต์หรือผ่านตัวจัดการ FTP ในตัว

หากไฟล์พร้อมใช้งาน คุณจะเห็นเนื้อหาของ robots.txt ในเบราว์เซอร์

robots.txt มีไว้เพื่ออะไร

Roots.txt สำหรับไซต์เป็นสิ่งสำคัญ ทำไมคุณถึงต้องการ robots.txt?- ตัวอย่างเช่นใน จำเป็นต้องมี SEO robots.txt เพื่อแยกออกจากหน้าจัดทำดัชนีที่ไม่มีเนื้อหาที่เป็นประโยชน์และอื่นๆ อีกมากมาย- อย่างไร อะไร ทำไม และเหตุใดจึงได้รับการอธิบายไว้ในบทความเกี่ยวกับเรื่องนี้แล้ว เราจะไม่พูดถึงเรื่องนี้ที่นี่ ไฟล์ robots.txt จำเป็นหรือไม่ไปยังทุกไซต์? ใช่และไม่ใช่ หากการใช้ robots.txt หมายถึงการยกเว้นหน้าเว็บจากการค้นหา ดังนั้นสำหรับไซต์ขนาดเล็กที่มีโครงสร้างเรียบง่ายและหน้าเว็บแบบคงที่ การยกเว้นดังกล่าวอาจไม่จำเป็น อย่างไรก็ตาม บางส่วนอาจมีประโยชน์สำหรับไซต์ขนาดเล็ก คำสั่ง robots.txtเช่น คำสั่ง Host หรือ Sitemap แต่มีรายละเอียดเพิ่มเติมด้านล่าง

วิธีสร้าง robots.txt

เนื่องจาก robots.txt เป็นไฟล์ข้อความและถึง สร้างไฟล์ robots.txtคุณสามารถใช้โปรแกรมแก้ไขข้อความใดก็ได้ เป็นต้น แผ่นจดบันทึก- เมื่อคุณเปิดเอกสารข้อความใหม่ คุณได้เริ่มสร้าง robots.txt แล้ว สิ่งที่เหลืออยู่คือการเขียนเนื้อหา ขึ้นอยู่กับความต้องการของคุณ และบันทึกเป็น ไฟล์ข้อความที่เรียกว่า robots ในรูปแบบ txt- ทุกอย่างง่ายดาย และการสร้างไฟล์ robots.txt ไม่ควรทำให้เกิดปัญหาแม้แต่กับผู้เริ่มต้น ด้านล่างนี้ ฉันจะแสดงให้คุณเห็นถึงวิธีการเขียน robots.txt และสิ่งที่ควรเขียนในโรบ็อตโดยใช้ตัวอย่าง

สร้าง robots.txt ออนไลน์

ตัวเลือกสำหรับคนขี้เกียจ - สร้างโรบ็อตออนไลน์และดาวน์โหลดไฟล์ robots.txtอยู่ในรูปแบบที่เสร็จสมบูรณ์แล้ว การสร้าง robots txt ออนไลน์นำเสนอบริการมากมาย ทางเลือกเป็นของคุณ สิ่งสำคัญคือต้องเข้าใจอย่างชัดเจนว่าสิ่งใดเป็นสิ่งต้องห้ามและสิ่งใดจะได้รับอนุญาตมิฉะนั้น การสร้างไฟล์ robots.txt ออนไลน์อาจกลายเป็นโศกนาฏกรรมได้ซึ่งอาจแก้ไขได้ยากในภายหลัง โดยเฉพาะอย่างยิ่งหากการค้นหามีบางสิ่งที่ควรปิดไว้ โปรดใช้ความระมัดระวัง - ตรวจสอบไฟล์โรบ็อตของคุณก่อนที่จะอัปโหลดไปยังไซต์ นิ่ง ไฟล์ robots.txt ที่กำหนดเองสะท้อนถึงโครงสร้างของข้อจำกัดได้แม่นยำกว่าโครงสร้างที่สร้างขึ้นโดยอัตโนมัติและดาวน์โหลดจากไซต์อื่น อ่านต่อเพื่อทราบว่าควรใส่ใจเป็นพิเศษเมื่อแก้ไข robots.txt

การแก้ไข robots.txt

เมื่อคุณสร้างไฟล์ robots.txt ทางออนไลน์หรือด้วยมือของคุณเองแล้ว คุณก็สามารถทำได้ แก้ไข robots.txt- คุณสามารถเปลี่ยนเนื้อหาได้ตามที่คุณต้องการ สิ่งสำคัญคือต้องปฏิบัติตามกฎและไวยากรณ์ของ robots.txt ขณะทำงานบนไซต์ ไฟล์ robots อาจมีการเปลี่ยนแปลง และหากคุณแก้ไข robots.txt อย่าลืมอัปโหลดไฟล์เวอร์ชันปัจจุบันที่อัปเดตพร้อมการเปลี่ยนแปลงทั้งหมดที่เกิดขึ้นกับไซต์ ต่อไปเรามาดูกฎสำหรับการตั้งค่าไฟล์เพื่อให้เราทราบ วิธีเปลี่ยนไฟล์ robots.txtและ “อย่าสับไม้”

การตั้งค่า robots.txt อย่างถูกต้อง

การตั้งค่า robots.txt อย่างถูกต้องช่วยให้คุณหลีกเลี่ยงข้อมูลส่วนตัวไม่ให้เข้าสู่ผลการค้นหาของเครื่องมือค้นหาสำคัญ ๆ อย่างไรก็ตามก็ไม่ควรลืมสิ่งนั้น คำสั่ง robots.txt เป็นเพียงแนวทางในการดำเนินการ ไม่ใช่การป้องกัน- โรบ็อตจากเครื่องมือค้นหาที่เชื่อถือได้ เช่น Yandex หรือ Google ทำตามคำแนะนำของ robots.txt แต่โรบ็อตตัวอื่นสามารถเพิกเฉยได้ง่าย ความเข้าใจที่ถูกต้องและการประยุกต์ใช้ robots.txt คือกุญแจสำคัญในการได้รับผลลัพธ์

เพื่อให้เข้าใจ วิธีสร้าง robots txt ที่ถูกต้องก่อนอื่นคุณต้องเข้าใจกฎทั่วไป ไวยากรณ์ และคำสั่งของไฟล์ robots.txt

robots.txt ที่ถูกต้องจะเริ่มต้นด้วยคำสั่ง User-agentซึ่งบ่งชี้ถึงคำสั่งเฉพาะของหุ่นยนต์ตัวใดที่ส่งถึง

ตัวอย่างของ User-agent ใน robots.txt:

# ระบุคำสั่งสำหรับหุ่นยนต์ทั้งหมดในเวลาเดียวกัน User-agent: * # ระบุคำสั่งสำหรับหุ่นยนต์ Yandex ทั้งหมด User-agent: Yandex # ระบุคำสั่งสำหรับหุ่นยนต์จัดทำดัชนี Yandex หลักเท่านั้น User-agent: YandexBot # ระบุคำสั่งสำหรับผู้ใช้หุ่นยนต์ Google ทั้งหมด -ตัวแทน: Googlebot

โปรดทราบว่าดังกล่าว การตั้งค่าไฟล์ robots.txtบอกให้หุ่นยนต์ใช้คำสั่งที่ตรงกับชื่อตัวแทนผู้ใช้เท่านั้น

ตัวอย่าง robots.txt ที่มี User-agent หลายครั้ง:

# จะถูกใช้งานโดยโรบ็อต Yandex ทั้งหมด User-agent: Yandex Disallow: /*utm_ # จะถูกใช้งานโดยโรบ็อตของ Google ทั้งหมด User-agent: Googlebot Disallow: /*utm_ # จะถูกใช้โดยโรบ็อตทั้งหมด ยกเว้นหุ่นยนต์ Yandex และ Google User- ตัวแทน: * อนุญาต: / *utm_

คำสั่งตัวแทนผู้ใช้สร้างเฉพาะคำสั่งให้กับหุ่นยนต์เฉพาะ และทันทีหลังจากคำสั่ง User-agent ควรมีคำสั่งหรือคำสั่งโดยตรงที่ระบุเงื่อนไขสำหรับหุ่นยนต์ที่เลือก ตัวอย่างด้านบนใช้คำสั่ง "Disallow" ซึ่งมีค่าเป็น "/*utm_" ดังนั้นเราจึงปิดทุกอย่าง การตั้งค่า robots.txt อย่างถูกต้องจะห้ามไม่ให้มีการขึ้นบรรทัดใหม่ระหว่างคำสั่ง "User-agent", "Disallow" และคำสั่งที่อยู่หลัง "Disallow" ภายใน "User-agent" ปัจจุบัน

ตัวอย่างการป้อนบรรทัดที่ไม่ถูกต้องใน robots.txt:

ตัวอย่างการป้อนบรรทัดที่ถูกต้องใน robots.txt:

ตัวแทนผู้ใช้: Yandex ไม่อนุญาต: /*utm_ อนุญาต: /*id= ตัวแทนผู้ใช้: * ไม่อนุญาต: /*utm_ อนุญาต: /*id=

ดังที่เห็นได้จากตัวอย่าง คำแนะนำใน robots.txt จะอยู่ในรูปแบบบล็อกซึ่งแต่ละคำสั่งจะมีคำสั่งสำหรับหุ่นยนต์เฉพาะหรือสำหรับหุ่นยนต์ทั้งหมด "*"

นอกจากนี้ สิ่งสำคัญคือต้องปฏิบัติตาม ลำดับที่ถูกต้องและการเรียงลำดับคำสั่งใน robots.txt เมื่อใช้คำสั่งร่วมกัน เช่น "Disallow" และ "Allow" คำสั่ง "อนุญาต" เป็นคำสั่งอนุญาต และอยู่ตรงข้ามกับคำสั่ง "Disallow" ของ robots.txt ซึ่งเป็นคำสั่งห้าม

ตัวอย่างการใช้คำสั่งร่วมกันใน robots.txt:

ตัวแทนผู้ใช้: * อนุญาต: /blog/page ไม่อนุญาต: /blog

ตัวอย่างนี้ป้องกันไม่ให้โรบอตทั้งหมดสร้างดัชนีหน้าเว็บทั้งหมดที่ขึ้นต้นด้วย "/blog" แต่อนุญาตให้สร้างดัชนีหน้าเว็บทั้งหมดที่ขึ้นต้นด้วย "/blog/page"

ตัวอย่างก่อนหน้าของ robots.txt ในการจัดเรียงที่ถูกต้อง:

User-agent: * Disallow: /blog อนุญาต: /blog/page

ขั้นแรกเราแบนส่วนทั้งหมด จากนั้นจึงอนุญาตบางส่วน

อื่น ตัวอย่าง robots.txt ที่ถูกต้องโดยมีแนวทางร่วมกัน:

ตัวแทนผู้ใช้: * อนุญาต: / ไม่อนุญาต: /blog อนุญาต: /blog/page

โปรดใส่ใจกับลำดับคำสั่งที่ถูกต้องใน robots.txt นี้

คำสั่ง "อนุญาต" และ "ไม่อนุญาต" สามารถระบุได้โดยไม่ต้องใช้พารามิเตอร์ ซึ่งในกรณีนี้ค่าจะถูกตีความกลับกันกับพารามิเตอร์ "/"

ตัวอย่างคำสั่ง “Disallow/Allow” ที่ไม่มีพารามิเตอร์:

User-agent: * Disallow: # เทียบเท่ากับ Allow: / Disallow: /blog Allow: /blog/page

วิธีสร้าง robots.txt ที่ถูกต้องและวิธีการใช้การตีความคำสั่งนั้นเป็นทางเลือกของคุณ ตัวเลือกทั้งสองจะถูกต้อง สิ่งสำคัญคืออย่าสับสน

ในการเขียน robots.txt อย่างถูกต้อง จำเป็นต้องระบุลำดับความสำคัญอย่างถูกต้องในพารามิเตอร์ของคำสั่ง และสิ่งที่โรบ็อตห้ามดาวน์โหลด เราจะดูการใช้คำสั่ง "Disallow" และ "Allow" อย่างครบถ้วนด้านล่าง แต่ตอนนี้เราจะดูที่ไวยากรณ์ของ robots.txt การรู้ไวยากรณ์ของ robots.txt จะทำให้คุณใกล้ชิดยิ่งขึ้น สร้าง robots txt ที่สมบูรณ์แบบด้วยมือของคุณเอง.

ไวยากรณ์ robots.txt

โรบ็อตเครื่องมือค้นหาทำตามคำสั่ง robots.txt โดยสมัครใจ- มาตรฐานสำหรับข้อยกเว้นของโรบ็อต อย่างไรก็ตาม เครื่องมือค้นหาบางรายการอาจไม่ปฏิบัติต่อไวยากรณ์ของ robots.txt ในลักษณะเดียวกัน ไฟล์ robots.txt มีไวยากรณ์ที่กำหนดไว้อย่างเคร่งครัด แต่ในขณะเดียวกัน เขียน robots txtไม่ยากเพราะโครงสร้างเรียบง่ายและเข้าใจง่าย

นี่คือรายการเฉพาะ กฎง่ายๆต่อไปนี้ซึ่งคุณจะยกเว้น ข้อผิดพลาดทั่วไปของ robots.txt:

  1. แต่ละคำสั่งเริ่มต้นในบรรทัดใหม่
  2. อย่าระบุมากกว่าหนึ่งคำสั่งในหนึ่งบรรทัด
  3. อย่าเว้นวรรคที่ต้นบรรทัด
  4. พารามิเตอร์คำสั่งต้องอยู่ในบรรทัดเดียว
  5. ไม่จำเป็นต้องใส่พารามิเตอร์คำสั่งในเครื่องหมายคำพูด
  6. พารามิเตอร์คำสั่งไม่จำเป็นต้องมีอัฒภาคต่อท้าย
  7. คำสั่งใน robots.txt ถูกระบุในรูปแบบ - [Directive_name]:[Optional Space][value][Option Space];
  8. อนุญาตให้แสดงความคิดเห็นใน robots.txt หลังเครื่องหมายแฮช #;
  9. การขึ้นบรรทัดใหม่สามารถตีความได้ว่าเป็นจุดสิ้นสุดของคำสั่ง User-agent
  10. คำสั่ง "Disallow:" (มีค่าว่าง) เทียบเท่ากับ "Allow: /" - อนุญาตทุกอย่าง
  11. คำสั่ง "อนุญาต" และ "ไม่อนุญาต" ระบุพารามิเตอร์ไม่เกินหนึ่งตัว
  12. ชื่อของไฟล์ robots.txt ไม่อนุญาตให้ใช้อักษรตัวพิมพ์ใหญ่ การสะกดชื่อไฟล์ไม่ถูกต้องคือ Robots.txt หรือ ROBOTS.TXT
  13. การเขียนชื่อของคำสั่งและพารามิเตอร์ด้วยตัวพิมพ์ใหญ่ถือเป็นรูปแบบที่ไม่ดี และแม้ว่า robots.txt จะไม่คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ตามมาตรฐาน แต่ชื่อไฟล์และไดเร็กทอรีก็มักจะคำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่
  14. หากพารามิเตอร์คำสั่งเป็นไดเรกทอรี ชื่อไดเรกทอรีจะขึ้นต้นด้วยเครื่องหมายทับ “/” เสมอ เช่น Disallow: /category
  15. robots.txt ที่มีขนาดใหญ่เกินไป (มากกว่า 32 KB) ถือว่าได้รับอนุญาตโดยสมบูรณ์ ซึ่งเทียบเท่ากับ “Disallow:”;
  16. Robots.txt ที่ไม่สามารถเข้าถึงได้ไม่ว่าด้วยเหตุผลใดก็ตามสามารถตีความได้ว่าได้รับอนุญาตโดยสมบูรณ์
  17. หาก robots.txt ว่างเปล่า ระบบจะตีความว่าอนุญาตโดยสมบูรณ์
  18. จากการแสดงรายการคำสั่ง "User-agent" หลายรายการโดยไม่มีการป้อนบรรทัดว่าง คำสั่ง "User-agent" ที่ตามมาทั้งหมดยกเว้นคำสั่งแรกอาจถูกละเว้น
  19. ไม่อนุญาตให้ใช้อักขระจากตัวอักษรประจำชาติใน robots.txt

เนื่องจากเครื่องมือค้นหาที่แตกต่างกันอาจตีความไวยากรณ์ของ robots.txt แตกต่างกัน จึงสามารถละเว้นบางประโยคได้ ตัวอย่างเช่น หากคุณป้อนคำสั่ง "User-agent" หลายรายการโดยไม่ขึ้นบรรทัดใหม่ Yandex จะยอมรับคำสั่ง "User-agent" ทั้งหมดอย่างถูกต้อง เนื่องจาก Yandex เลือกบันทึกตามการมีอยู่ของคำสั่งดังกล่าวในบรรทัด "User-agent"

หุ่นยนต์ควรระบุเฉพาะสิ่งที่จำเป็นเท่านั้นและไม่มีอะไรฟุ่มเฟือย อย่าคิดนะ วิธีเขียนทุกอย่างใน robots txtสิ่งที่เป็นไปได้และจะเติมได้อย่างไร หุ่นยนต์ในอุดมคติ txtเป็นอันที่มีบรรทัดน้อยแต่มีความหมายมากกว่า “ความกะทัดรัดเป็นน้องสาวของพรสวรรค์” สำนวนนี้มีประโยชน์ที่นี่

วิธีตรวจสอบ robots.txt

เพื่อ ตรวจสอบ robots.txtหากต้องการตรวจสอบความถูกต้องของไวยากรณ์และโครงสร้างของไฟล์ คุณสามารถใช้หนึ่งในบริการออนไลน์ได้ ตัวอย่างเช่น Yandex และ Google เสนอบริการของตนเองสำหรับผู้ดูแลเว็บ ซึ่งรวมถึง การวิเคราะห์ robots.txt:

กำลังตรวจสอบไฟล์ robots.txt ใน Yandex.Webmaster: http://webmaster.yandex.ru/robots.xml

เพื่อ ตรวจสอบ robots.txt ออนไลน์จำเป็น อัปโหลด robots.txt ไปยังไซต์ในไดเรกทอรีราก- มิฉะนั้นทางบริการอาจรายงานว่า โหลด robots.txt ไม่สำเร็จ- ขอแนะนำให้ตรวจสอบ robots.txt ก่อนว่ามีความพร้อมในที่อยู่ของไฟล์หรือไม่ เช่น your_site.ru/robots.txt

นอกจากบริการตรวจสอบความถูกต้องจาก Yandex และ Google แล้ว ยังมีบริการออนไลน์อื่นๆ อีกมากมาย เครื่องมือตรวจสอบ robots.txt

Robots.txt กับ Yandex และ Google

มีความเห็นส่วนตัวว่า Yandex รับรู้ถึงการบ่งชี้บล็อกคำสั่ง "User-agent: Yandex" ที่แยกต่างหากใน robots.txt ในทางบวกมากกว่าบล็อกคำสั่งทั่วไปที่มี "User-agent: *" สถานการณ์นี้คล้ายคลึงกับ robots.txt และ Google การระบุคำสั่งแยกต่างหากสำหรับ Yandex และ Google ช่วยให้คุณควบคุมการจัดทำดัชนีไซต์ผ่าน robots.txt บางทีพวกเขาอาจรู้สึกยินดีเป็นการส่วนตัวกับการอุทธรณ์โดยเฉพาะอย่างยิ่งเนื่องจากสำหรับไซต์ส่วนใหญ่เนื้อหาของบล็อก robots.txt ของ Yandex, Google และเครื่องมือค้นหาอื่น ๆ จะเหมือนกัน โดยมีข้อยกเว้นที่เกิดขึ้นไม่บ่อยนัก การบล็อก "User-agent" ทั้งหมดจะมี มาตรฐานสำหรับ robots.txtชุดคำสั่ง นอกจากนี้ คุณสามารถติดตั้งโดยใช้ “ตัวแทนผู้ใช้” ที่แตกต่างกันได้ ข้อห้ามในการจัดทำดัชนีใน robots.txt สำหรับ Yandexแต่ ตัวอย่างเช่น ไม่ใช่สำหรับ Google

เป็นที่น่าสังเกตว่า Yandex คำนึงถึงคำสั่งที่สำคัญเช่น "โฮสต์" และ robots.txt ที่ถูกต้องสำหรับ Yandex ควรมีคำสั่งนี้เพื่อระบุมิเรอร์หลักของไซต์ เราจะดูคำสั่ง "โฮสต์" โดยละเอียดด้านล่าง

ปิดใช้งานการจัดทำดัชนี: robots.txt ไม่อนุญาต

Disallow - ห้ามคำสั่งซึ่งมักใช้ในไฟล์ robots.txt Disallow ป้องกันการจัดทำดัชนีของไซต์หรือบางส่วน ขึ้นอยู่กับเส้นทางที่ระบุในพารามิเตอร์คำสั่ง Disallow

ตัวอย่างวิธีป้องกันการจัดทำดัชนีไซต์ใน robots.txt:

ตัวแทนผู้ใช้: * Disallow: /

ตัวอย่างนี้บล็อกทั้งไซต์จากการจัดทำดัชนีสำหรับโรบ็อตทั้งหมด

พารามิเตอร์คำสั่ง Disallow อนุญาตให้ใช้อักขระพิเศษ * และ $:

* - จำนวนอักขระเท่าใดก็ได้ เช่น พารามิเตอร์ /page* เป็นไปตาม /page, /page1, /page-be-cool, /page/kak-skazat เป็นต้น อย่างไรก็ตาม ไม่จำเป็นต้องระบุ * ที่ส่วนท้ายของแต่ละพารามิเตอร์ เนื่องจากตัวอย่างคำสั่งต่อไปนี้ได้รับการตีความเหมือนกัน:

ตัวแทนผู้ใช้: Yandex Disallow: /page ตัวแทนผู้ใช้: Yandex Disallow: /page*

$ - ระบุการจับคู่ที่ตรงกันทุกประการของข้อยกเว้นกับค่าพารามิเตอร์:

User-agent: Googlebot Disallow: /page$

ในกรณีนี้ คำสั่ง Disallow จะไม่อนุญาต /page แต่จะไม่ห้ามการจัดทำดัชนีของหน้า /page1, /page-be-cool หรือ /page/kak-skazat

ถ้า ปิดการจัดทำดัชนีไซต์ robots.txtเครื่องมือค้นหาอาจตอบสนองต่อการย้ายนี้โดยมีข้อผิดพลาด “ถูกบล็อกในไฟล์ robots.txt” หรือ “url ถูกจำกัดโดย robots.txt” (URL ถูกห้ามโดยไฟล์ robots.txt) หากคุณต้องการ ปิดการใช้งานการจัดทำดัชนีหน้าคุณสามารถใช้ได้ไม่เพียงแต่ robots txt เท่านั้น แต่ยังสามารถใช้แท็ก html ที่คล้ายกันได้ด้วย:

  • - ไม่จัดทำดัชนีเนื้อหาของหน้า;
  • - ห้ามติดตามลิงค์บนหน้า;
  • - ห้ามจัดทำดัชนีเนื้อหาและติดตามลิงก์บนหน้า;
  • - คล้ายกับเนื้อหา = "ไม่มี"

อนุญาตการจัดทำดัชนี: robots.txt อนุญาต

อนุญาต - คำสั่งอนุญาตและตรงกันข้ามกับคำสั่ง Disallow คำสั่งนี้มีไวยากรณ์คล้ายกับ Disallow

ตัวอย่างวิธีห้ามการจัดทำดัชนีของเว็บไซต์ยกเว้นบางหน้าใน robots.txt:

ตัวแทนผู้ใช้: * Disallow: /Allow: /page

ห้ามจัดทำดัชนีทั้งไซต์ยกเว้นหน้าที่ขึ้นต้นด้วย /page

ไม่อนุญาตและอนุญาตโดยมีค่าพารามิเตอร์ว่างเปล่า

คำสั่ง Disallow ว่างเปล่า:

ตัวแทนผู้ใช้: * ไม่อนุญาต:

ห้ามห้ามสิ่งใดหรืออนุญาตให้มีการจัดทำดัชนีทั้งไซต์และเทียบเท่ากับ:

ตัวแทนผู้ใช้: * อนุญาต: /

คำสั่งอนุญาตให้ว่างเปล่า:

ตัวแทนผู้ใช้: * อนุญาต:

การไม่อนุญาตหรือห้ามการจัดทำดัชนีไซต์โดยสิ้นเชิงจะเทียบเท่ากับ:

ตัวแทนผู้ใช้: * Disallow: /

มิเรอร์เว็บไซต์หลัก: โฮสต์ robots.txt

คำสั่งโฮสต์ใช้เพื่อระบุให้หุ่นยนต์ Yandex เป็นมิเรอร์หลักของไซต์ของคุณ- ในบรรดาเสิร์ชเอ็นจิ้นยอดนิยมทั้งหมดคำสั่ง โฮสต์ได้รับการยอมรับโดยหุ่นยนต์ Yandex เท่านั้น- คำสั่งโฮสต์มีประโยชน์หากเว็บไซต์ของคุณสามารถเข้าถึงได้ผ่านหลายช่องทาง เช่น:

Mysite.ru mysite.com

หรือเพื่อกำหนดลำดับความสำคัญระหว่าง:

Mysite.ru www.mysite.ru

คุณสามารถบอกหุ่นยนต์ยานเดกซ์ได้ว่ากระจกตัวไหนเป็นกระจกหลัก- คำสั่งโฮสต์ระบุไว้ในบล็อกคำสั่ง "User-agent: Yandex" และในฐานะพารามิเตอร์ ที่อยู่ไซต์ที่ต้องการโดยไม่มี "http://" จะถูกระบุ

ตัวอย่าง robots.txt ที่ระบุมิเรอร์หลัก:

ตัวแทนผู้ใช้: Yandex Disallow: /page Host: mysite.ru

ชื่อโดเมน mysite.ru ที่ไม่มี www จะถูกระบุว่าเป็นมิเรอร์หลัก ดังนั้นที่อยู่ประเภทนี้จะถูกระบุในผลการค้นหา

ตัวแทนผู้ใช้: Yandex Disallow: /page Host: www.mysite.ru

ชื่อโดเมน www.mysite.ru ถูกระบุเป็นมิเรอร์หลัก

คำสั่งโฮสต์ในไฟล์ robots.txtสามารถใช้ได้เพียงครั้งเดียว แต่หากมีการระบุคำสั่ง Host มากกว่าหนึ่งครั้ง เฉพาะคำสั่งแรกเท่านั้นที่จะนำมาพิจารณา ส่วนคำสั่ง Host อื่นๆ จะถูกละเว้น

หากคุณต้องการระบุมิเรอร์หลักสำหรับ Googlebot ให้ใช้บริการ Google Webmaster Tools

แผนผังไซต์: แผนผังไซต์ robots.txt

เมื่อใช้คำสั่ง Sitemap คุณสามารถระบุตำแหน่งบนเว็บไซต์ใน robots.txt

ตัวอย่างของ robots.txt ที่ระบุที่อยู่แผนผังไซต์:

ตัวแทนผู้ใช้: * ไม่อนุญาต: /page แผนผังไซต์: http://www.mysite.ru/sitemap.xml

การระบุที่อยู่แผนผังเว็บไซต์ผ่านทาง คำสั่งแผนผังไซต์ใน robots.txtช่วยให้โรบ็อตการค้นหาสามารถค้นหาเกี่ยวกับการมีอยู่ของแผนผังเว็บไซต์และเริ่มสร้างดัชนีได้

คำสั่ง Clean-param

คำสั่ง Clean-param ช่วยให้คุณสามารถยกเว้นหน้าที่มีพารามิเตอร์ไดนามิกจากการจัดทำดัชนี หน้าเว็บที่คล้ายกันสามารถแสดงเนื้อหาเดียวกันได้ แต่มี URL ของหน้าเว็บที่แตกต่างกัน พูดง่ายๆ ก็คือเหมือนกับว่าเพจสามารถเข้าถึงได้จากที่อยู่ที่แตกต่างกัน หน้าที่ของเราคือการลบที่อยู่แบบไดนามิกที่ไม่จำเป็นออกทั้งหมด ซึ่งอาจมีอยู่นับล้านรายการ ในการดำเนินการนี้ เราจะยกเว้นพารามิเตอร์ไดนามิกทั้งหมด ใช้คำสั่ง Clean-param ใน robots.txt.

ไวยากรณ์ของคำสั่ง Clean-param คือ:

ทำความสะอาดพารามิเตอร์: parm1[&parm2&parm3&parm4&..&parmn] [เส้นทาง]

ลองดูตัวอย่างหน้าเว็บที่มี URL ต่อไปนี้:

www.mysite.ru/page.html?&parm1=1&parm2=2&parm3=3

ตัวอย่าง robots.txt Clean-param:

Clean-param: parm1&parm2&parm3 /page.html # สำหรับ page.html เท่านั้น

Clean-param: parm1&parm2&parm3 / # สำหรับทุกคน

คำสั่งการรวบรวมข้อมูลล่าช้า

คำแนะนำนี้ช่วยให้คุณสามารถลดภาระบนเซิร์ฟเวอร์ได้หากโรบอตเยี่ยมชมไซต์ของคุณบ่อยเกินไป คำสั่งนี้เกี่ยวข้องกับไซต์ที่มีหน้าจำนวนมากเป็นหลัก

ตัวอย่างการรวบรวมข้อมูลของ robots.txt-delay:

ตัวแทนผู้ใช้: Yandex Disallow: /page Crawl-delay: 3

ในกรณีนี้ เรา "ขอให้" หุ่นยนต์ Yandex ดาวน์โหลดหน้าเว็บไซต์ของเราไม่เกินหนึ่งครั้งทุกๆ สามวินาที เครื่องมือค้นหาบางตัวรองรับรูปแบบนี้ ตัวเลขเศษส่วนเป็นพารามิเตอร์ คำสั่ง robots.txt ที่ล่าช้าในการรวบรวมข้อมูล.

วัตถุประสงค์ของคู่มือนี้คือเพื่อช่วยให้ผู้ดูแลเว็บและผู้ดูแลระบบใช้ robots.txt

การแนะนำ

มาตรฐานการยกเว้นของหุ่นยนต์นั้นมีพื้นฐานง่ายมาก กล่าวโดยย่อมันทำงานดังนี้:

เมื่อโรบอตที่ปฏิบัติตามมาตรฐานเข้าชมไซต์ อันดับแรกโรบอตจะขอไฟล์ชื่อ “/robots.txt” หากพบไฟล์ดังกล่าว โรบอตจะค้นหาคำแนะนำในการห้ามจัดทำดัชนีบางส่วนของไซต์

ตำแหน่งที่จะวางไฟล์ robots.txt

โรบ็อตเพียงขอ URL “/robots.txt” บนไซต์ของคุณ ไซต์ในกรณีนี้คือโฮสต์เฉพาะบนพอร์ตเฉพาะ

URL ของไซต์ URL ไฟล์ Robots.txt
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

ไซต์มีไฟล์ “/robots.txt” ได้เพียงไฟล์เดียวเท่านั้น ตัวอย่างเช่น คุณไม่ควรวางไฟล์ robots.txt ไว้ในไดเร็กทอรีย่อยของผู้ใช้ เพราะโรบ็อตจะไม่ค้นหาไฟล์เหล่านั้นที่นั่น หากคุณต้องการสร้างไฟล์ robots.txt ในไดเรกทอรีย่อย คุณต้องมีวิธีรวบรวมไฟล์เหล่านั้นโดยทางโปรแกรมให้เป็นไฟล์ robots.txt ไฟล์เดียวซึ่งอยู่ที่รากของไซต์ คุณสามารถใช้.

โปรดจำไว้ว่า URL คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ และชื่อไฟล์ “/robots.txt” จะต้องเขียนด้วยตัวพิมพ์เล็กทั้งหมด

ตำแหน่ง robots.txt ไม่ถูกต้อง
http://www.w3.org/admin/robots.txt
http://www.w3.org/~timbl/robots.txt ไฟล์ไม่ได้อยู่ที่รากของไซต์
ftp://ftp.w3.com/robots.txt โรบ็อตไม่สร้างดัชนี ftp
http://www.w3.org/Robots.txt ชื่อไฟล์ไม่ใช่ตัวพิมพ์เล็ก

อย่างที่คุณเห็น ไฟล์ robots.txt ควรวางไว้ที่รากของไซต์โดยเฉพาะ

สิ่งที่ต้องเขียนในไฟล์ robots.txt

ไฟล์ robots.txt มักจะมีเนื้อหาดังนี้:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /tmp/
ไม่อนุญาต: /~โจ/

ในตัวอย่างนี้ ห้ามสร้างดัชนีของสามไดเร็กทอรี

โปรดทราบว่าแต่ละไดเร็กทอรีจะแสดงรายการในบรรทัดแยกกัน คุณไม่สามารถเขียน "Disallow: /cgi-bin/ /tmp/" ได้ คุณไม่สามารถแยกคำสั่ง Disallow หรือ User-agent ออกเป็นหลายบรรทัดได้เนื่องจาก ตัวแบ่งบรรทัดใช้เพื่อแยกคำสั่งออกจากกัน

ไม่สามารถใช้นิพจน์ทั่วไปและไวด์การ์ดได้เช่นกัน “เครื่องหมายดอกจัน” (*) ในคำสั่ง User-agent หมายถึง “โรบ็อตใดๆ” ไม่รองรับคำสั่ง เช่น “Disallow: *.gif” หรือ “User-agent: Ya*”

คำแนะนำเฉพาะใน robots.txt ขึ้นอยู่กับเว็บไซต์ของคุณและสิ่งที่คุณต้องการป้องกันไม่ให้มีการจัดทำดัชนี นี่คือตัวอย่างบางส่วน:

บล็อกทั้งไซต์ไม่ให้ถูกจัดทำดัชนีโดยโรบอตทั้งหมด

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /

อนุญาตให้โรบอตทั้งหมดจัดทำดัชนีทั้งไซต์

ตัวแทนผู้ใช้: *
ไม่อนุญาต:

หรือคุณสามารถสร้างไฟล์เปล่า “/robots.txt” ก็ได้

บล็อกไดเร็กทอรีเพียงไม่กี่รายการจากการจัดทำดัชนี

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /cgi-bin/
ไม่อนุญาต: /tmp/
ไม่อนุญาต: /ส่วนตัว/

ป้องกันการจัดทำดัชนีไซต์สำหรับหุ่นยนต์เพียงตัวเดียว

ตัวแทนผู้ใช้: BadBot
ไม่อนุญาต: /

อนุญาตให้โรบอตตัวหนึ่งจัดทำดัชนีไซต์และปฏิเสธตัวอื่นๆ ทั้งหมด

ตัวแทนผู้ใช้: Yandex
ไม่อนุญาต:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /

ปฏิเสธไฟล์ทั้งหมด ยกเว้นไฟล์เดียวจากการจัดทำดัชนี

ซึ่งค่อนข้างยากเพราะว่า... ไม่มีคำสั่ง "อนุญาต" แต่คุณสามารถย้ายไฟล์ทั้งหมดได้ ยกเว้นไฟล์ที่คุณต้องการอนุญาตให้จัดทำดัชนีลงในไดเรกทอรีย่อยและป้องกันไม่ให้มีการจัดทำดัชนี:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /docs/

หรือคุณสามารถห้ามไฟล์ทั้งหมดที่ถูกห้ามไม่ให้จัดทำดัชนี:

ตัวแทนผู้ใช้: *
ไม่อนุญาต: /private.html
ไม่อนุญาต: /foo.html
ไม่อนุญาต: /bar.html

ด้านเทคนิคของไซต์ที่สร้างขึ้นมีบทบาทสำคัญเท่าเทียมกันในการโปรโมตไซต์ เครื่องมือค้นหามากกว่าการเติมเต็ม หนึ่งในประเด็นทางเทคนิคที่สำคัญที่สุดคือการจัดทำดัชนีไซต์ เช่น การกำหนดพื้นที่ของไซต์ (ไฟล์และไดเร็กทอรี) ที่สามารถหรือไม่สามารถจัดทำดัชนีโดยโรบอตเครื่องมือค้นหา เพื่อจุดประสงค์เหล่านี้ จะใช้ robots.txt ซึ่งเป็นไฟล์พิเศษที่มีคำสั่งสำหรับโรบ็อตเครื่องมือค้นหา ไฟล์ robots.txt ที่ถูกต้องสำหรับ Yandex และ Google จะช่วยคุณหลีกเลี่ยงผลที่ไม่พึงประสงค์มากมายที่เกี่ยวข้องกับการจัดทำดัชนีไซต์

2. แนวคิดของไฟล์ robots.txt และข้อกำหนดของไฟล์

ไฟล์ /robots.txt มีวัตถุประสงค์เพื่อสั่งให้โรบ็อตค้นหา (สไปเดอร์) ทั้งหมดจัดทำดัชนีเซิร์ฟเวอร์ข้อมูลตามที่กำหนดไว้ในไฟล์นี้ เช่น เฉพาะไดเร็กทอรีและไฟล์เซิร์ฟเวอร์ที่ไม่ได้อธิบายไว้ใน /robots.txt ไฟล์นี้ควรมีบันทึกตั้งแต่ 0 รายการขึ้นไปที่เกี่ยวข้องกับโรบ็อตบางตัว (ตามที่กำหนดโดยค่าของฟิลด์ agent_id) และระบุสำหรับโรบ็อตแต่ละตัวหรือสำหรับทั้งหมดในคราวเดียวถึงสิ่งที่พวกเขาไม่จำเป็นต้องสร้างดัชนี

ไวยากรณ์ของไฟล์ช่วยให้คุณสามารถตั้งค่าพื้นที่การจัดทำดัชนีที่จำกัด ทั้งสำหรับโรบ็อตทั้งหมดและสำหรับโรบ็อตเฉพาะ

ไฟล์ robots.txt มีข้อกำหนดพิเศษ การไม่ปฏิบัติตามซึ่งอาจส่งผลให้โรบ็อตของเครื่องมือค้นหาอ่านไม่ถูกต้องหรือทำให้ไฟล์ไม่สามารถใช้งานได้โดยทั่วไป

ข้อกำหนดพื้นฐาน:

  • ตัวอักษรทั้งหมดในชื่อไฟล์จะต้องเป็นตัวพิมพ์ใหญ่ กล่าวคือ จะต้องเป็นตัวพิมพ์เล็ก:
  • robots.txt ถูกต้อง
  • Robots.txt หรือ ROBOTS.TXT – ไม่ถูกต้อง
  • ไฟล์ robots.txt ต้องสร้างในรูปแบบข้อความ Unix เมื่อคัดลอกไฟล์นี้ไปยังเว็บไซต์ ไคลเอนต์ ftp จะต้องได้รับการกำหนดค่าสำหรับโหมดการแลกเปลี่ยนไฟล์ข้อความ
  • ต้องวางไฟล์ robots.txt ไว้ในไดเร็กทอรีรากของไซต์

3. เนื้อหาของไฟล์ robots.txt

ไฟล์ robots.txt มีสองรายการ: "User-agent" และ "Disallow" ชื่อของรายการเหล่านี้ไม่คำนึงถึงขนาดตัวพิมพ์

เครื่องมือค้นหาบางรายการยังรองรับรายการเพิ่มเติมอีกด้วย ตัวอย่างเช่นเครื่องมือค้นหา Yandex ใช้บันทึก "โฮสต์" เพื่อกำหนดมิเรอร์หลักของไซต์ (มิเรอร์หลักของไซต์คือไซต์ที่อยู่ในดัชนีเครื่องมือค้นหา)

แต่ละรายการมีวัตถุประสงค์ของตัวเองและสามารถปรากฏได้หลายครั้ง ขึ้นอยู่กับจำนวนหน้าและ/หรือไดเร็กทอรีที่ถูกบล็อกจากการจัดทำดัชนีและจำนวนโรบ็อตที่คุณติดต่อ

รูปแบบบรรทัดที่ต้องการสำหรับไฟล์ robots.txt จะเป็นดังนี้:

post_name[ไม่จำเป็น

ช่องว่าง] : [ไม่จำเป็น

ช่องว่าง] ความหมาย[ช่องว่างเพิ่มเติม]

เพื่อให้ไฟล์ robots.txt ได้รับการพิจารณาว่าถูกต้อง จะต้องมีคำสั่ง "Disallow" อย่างน้อย 1 รายการต่อท้ายรายการ "User-agent"

ไฟล์ robots.txt ที่ว่างเปล่าโดยสิ้นเชิงจะเทียบเท่ากับการไม่มีไฟล์ robots.txt ซึ่งหมายถึงการอนุญาตให้จัดทำดัชนีทั้งไซต์

รายการตัวแทนผู้ใช้

รายการ “User-agent” ต้องมีชื่อของโรบ็อตการค้นหา ในรายการนี้ คุณสามารถบอกโรบ็อตแต่ละตัวว่าหน้าใดของเว็บไซต์ที่จะจัดทำดัชนีและหน้าใดไม่ทำดัชนี

ตัวอย่างของรายการ “User-agent” ซึ่งเข้าถึงเครื่องมือค้นหาทั้งหมดโดยไม่มีข้อยกเว้น และใช้สัญลักษณ์ “*”:

ตัวอย่างของบันทึก “User-agent” ซึ่งมีการติดต่อเฉพาะหุ่นยนต์เครื่องมือค้นหาของ Rambler เท่านั้น:

ตัวแทนผู้ใช้: StackRambler

หุ่นยนต์เครื่องมือค้นหาแต่ละตัวมีชื่อของตัวเอง มีสองวิธีหลักในการค้นหา (ชื่อ):

บนเว็บไซต์ของเสิร์ชเอ็นจิ้นหลายแห่งมีส่วน "ช่วยเหลือผู้ดูแลเว็บ" เฉพาะทางซึ่งมักจะระบุชื่อของโรบ็อตการค้นหา

เมื่อดูบันทึกของเว็บเซิร์ฟเวอร์ เช่น เมื่อดูการเรียกไปยังไฟล์ robots.txt คุณจะเห็นชื่อจำนวนมากที่มีชื่อของเครื่องมือค้นหาหรือบางส่วน ดังนั้นสิ่งที่คุณต้องทำคือเลือกชื่อที่ต้องการและป้อนลงในไฟล์ robots.txt

รายการ "ไม่อนุญาต"

บันทึก "ไม่อนุญาต" ต้องมีคำแนะนำที่ระบุให้โรบ็อตค้นหาทราบจากบันทึก "ตัวแทนผู้ใช้" ว่าไฟล์และ/หรือไดเร็กทอรีใดบ้างที่ไม่ได้รับอนุญาตจากการจัดทำดัชนี

ลองพิจารณาดู ตัวอย่างต่างๆบันทึก "ไม่อนุญาต"

ตัวอย่างรายการใน robots.txt (อนุญาตให้ทุกอย่างจัดทำดัชนี):

ไม่อนุญาต:

ตัวอย่าง (ห้ามใช้ไซต์นี้โดยสมบูรณ์ ใช้สัญลักษณ์ “/” สำหรับสิ่งนี้): ไม่อนุญาต: /

ตัวอย่าง (ไฟล์ “page.htm” ที่อยู่ในไดเร็กทอรีรากและไฟล์ “page2.htm” ที่อยู่ในไดเร็กทอรี “dir” ไม่ได้รับอนุญาตให้จัดทำดัชนี):

ไม่อนุญาต: /page.htm

ไม่อนุญาต: /dir/page2.htm

ตัวอย่าง (ไดเร็กทอรี “cgi-bin” และ “ฟอรั่ม” ดังนั้น เนื้อหาทั้งหมดของไดเร็กทอรีนี้จึงไม่ได้รับอนุญาตสำหรับการจัดทำดัชนี):

ไม่อนุญาต: /cgi-bin/

ไม่อนุญาต: /forum/

คุณสามารถบล็อกเอกสารและ (หรือ) ไดเร็กทอรีจำนวนหนึ่งที่เริ่มต้นด้วยอักขระเดียวกันจากการจัดทำดัชนีโดยใช้รายการ "Disallow" เพียงรายการเดียว ในการดำเนินการนี้ คุณจะต้องป้อนอักขระเริ่มต้นที่เหมือนกันโดยไม่มีเครื่องหมายทับ

ตัวอย่าง (ไดเร็กทอรี “dir” ถูกห้ามสำหรับการจัดทำดัชนี เช่นเดียวกับไฟล์และไดเร็กทอรีทั้งหมดที่ขึ้นต้นด้วยตัวอักษร “dir” เช่น ไฟล์: “dir.htm”, “direct.htm”, ไดเร็กทอรี: “dir”, “directory1 ” ", "ไดเรกทอรี2" ฯลฯ):

รายการ "อนุญาต"

ตัวเลือก "อนุญาต" ใช้เพื่อแสดงข้อยกเว้นจากไดเร็กทอรีและเพจที่ไม่สามารถจัดทำดัชนีได้ซึ่งระบุโดยรายการ "ไม่อนุญาต"

ตัวอย่างเช่น มีบันทึกดังนี้:

ไม่อนุญาต: /forum/

แต่ในกรณีนี้ จำเป็นต้องสร้างดัชนีเพจ page1 ในไดเร็กทอรี /forum/ จากนั้นจะต้องมีบรรทัดต่อไปนี้ในไฟล์ robots.txt:

ไม่อนุญาต: /forum/

อนุญาต: /forum/page1

รายการแผนผังไซต์

รายการนี้ระบุตำแหน่งของแผนผังเว็บไซต์ในรูปแบบ xml ซึ่งใช้โดยโรบ็อตการค้นหา รายการนี้ระบุเส้นทางไปยังไฟล์นี้

แผนผังเว็บไซต์: http://site.ru/sitemap.xml

รายการ "โฮสต์"

เครื่องมือค้นหา Yandex ใช้บันทึก "โฮสต์" มีความจำเป็นต้องกำหนดมิเรอร์หลักของไซต์ เช่น หากไซต์มีมิเรอร์ (มิเรอร์เป็นสำเนาบางส่วนหรือทั้งหมดของไซต์ บางครั้งการมีทรัพยากรที่ซ้ำกันเป็นสิ่งจำเป็นสำหรับเจ้าของไซต์ที่มีผู้เยี่ยมชมสูงเพื่อเพิ่มความน่าเชื่อถือและ ความพร้อมใช้งานของบริการ) จากนั้นใช้คำสั่ง "โฮสต์" คุณสามารถเลือกชื่อที่คุณต้องการจัดทำดัชนีได้ มิฉะนั้นยานเดกซ์จะเลือกมิเรอร์หลักด้วยตัวเองและชื่ออื่น ๆ จะถูกห้ามไม่ให้สร้างดัชนี

เพื่อให้เข้ากันได้กับโรบ็อตการค้นหา ซึ่งไม่ยอมรับคำสั่ง Host เมื่อประมวลผลไฟล์ robots.txt จำเป็นต้องเพิ่มรายการ "Host" ทันทีหลังรายการ Disallow

ตัวอย่าง: www.site.ru – กระจกหลัก:

โฮสต์: www.site.ru

การบันทึก "การรวบรวมข้อมูลล่าช้า"

รายการนี้รับรู้โดยยานเดกซ์ มันเป็นคำสั่งสำหรับหุ่นยนต์ที่จะใช้ระยะเวลาที่กำหนด (เป็นวินาที) ระหว่างหน้าการจัดทำดัชนี บางครั้งสิ่งนี้จำเป็นเพื่อป้องกันไซต์จากการโอเวอร์โหลด

ดังนั้นรายการต่อไปนี้หมายความว่าหุ่นยนต์ Yandex จำเป็นต้องย้ายจากหน้าหนึ่งไปอีกหน้าหนึ่งไม่เร็วกว่า 3 วินาที:

ความคิดเห็น

บรรทัดใดๆ ใน robots.txt ที่ขึ้นต้นด้วยอักขระ "#" จะถือเป็นความคิดเห็น อนุญาตให้แสดงความคิดเห็นที่ส่วนท้ายของบรรทัดคำสั่ง แต่โรบ็อตบางตัวอาจไม่รู้จักบรรทัดอย่างถูกต้อง

ตัวอย่าง (ความคิดเห็นอยู่ในบรรทัดเดียวกับคำสั่ง):

ไม่อนุญาต: /cgi-bin/ #comment

ขอแนะนำให้วางความคิดเห็นไว้ในบรรทัดแยกต่างหาก อนุญาตให้เว้นวรรคที่ต้นบรรทัดได้ แต่ไม่แนะนำ

4. ตัวอย่างไฟล์ robots.txt

ตัวอย่าง (ความคิดเห็นอยู่ในบรรทัดแยก):

ไม่อนุญาต: /cgi-bin/#comment

ตัวอย่างไฟล์ robots.txt ที่อนุญาตให้โรบ็อตทั้งหมดจัดทำดัชนีทั้งไซต์:

โฮสต์: www.site.ru

ตัวอย่างไฟล์ robots.txt ที่ห้ามไม่ให้โรบ็อตทั้งหมดจัดทำดัชนีไซต์:

โฮสต์: www.site.ru

ตัวอย่างไฟล์ robots.txt ที่ห้ามมิให้โรบ็อตทั้งหมดสร้างดัชนีไดเร็กทอรี “abc” รวมถึงไดเร็กทอรีและไฟล์ทั้งหมดที่ขึ้นต้นด้วยอักขระ “abc”

โฮสต์: www.site.ru

ตัวอย่างของไฟล์ robots.txt ที่ป้องกันไม่ให้หน้า “page.htm” ที่อยู่ในไดเรกทอรีรากของเว็บไซต์ไม่ได้รับการจัดทำดัชนีโดยโรบ็อตการค้นหาของ Googlebot:

ตัวแทนผู้ใช้: googlebot

ไม่อนุญาต: /page.htm

โฮสต์: www.site.ru

ตัวอย่างไฟล์ robots.txt ที่ห้ามการจัดทำดัชนี:

– ไปยังโรบ็อต “googlebot” – หน้า “page1.htm” ที่อยู่ในไดเร็กทอรี “ไดเรกทอรี”

– ไปยังโรบ็อต “Yandex” – ไดเรกทอรีและเพจทั้งหมดที่ขึ้นต้นด้วยสัญลักษณ์ “dir” (/dir/, /direct/, dir.htm, ทิศทาง.htm ฯลฯ) และอยู่ในไดเรกทอรีรากของเว็บไซต์

ตัวแทนผู้ใช้: googlebot

ไม่อนุญาต: /directory/page1.htm

ตัวแทนผู้ใช้: Yandex

5. ข้อผิดพลาดที่เกี่ยวข้องกับไฟล์ robots.txt

ข้อผิดพลาดที่พบบ่อยที่สุดประการหนึ่งคือไวยากรณ์กลับด้าน

ผิด:

ไม่อนุญาต: Yandex

ขวา:

ตัวแทนผู้ใช้: Yandex

ผิด:

ไม่อนุญาต: /dir/ /cgi-bin/ /forum/

ขวา:

ไม่อนุญาต: /cgi-bin/

ไม่อนุญาต: /forum/

เมื่อประมวลผลข้อผิดพลาด 404 (ไม่พบเอกสาร) หากเว็บเซิร์ฟเวอร์แสดงหน้าพิเศษ และไฟล์ robots.txt หายไป อาจเป็นไปได้ที่โรบอตการค้นหาจะได้รับเมื่อร้องขอไฟล์ robots.txt หน้าพิเศษซึ่งไม่ใช่ไฟล์ในการจัดการการจัดทำดัชนีทั้งหมด

ข้อผิดพลาดที่เกี่ยวข้องกับการใช้ตัวพิมพ์ไม่ถูกต้องในไฟล์ robots.txt ตัวอย่างเช่น หากคุณต้องการปิดไดเร็กทอรี "cgi-bin" ในรายการ "Disallow" คุณจะไม่สามารถเขียนชื่อของไดเร็กทอรีเป็นตัวพิมพ์ใหญ่ "cgi-bin" ได้

ผิด:

ไม่อนุญาต: /CGI-BIN/

ขวา:

ไม่อนุญาต: /cgi-bin/

ข้อผิดพลาดที่เกี่ยวข้องกับเครื่องหมายทับเปิดหายไปเมื่อปิดไดเร็กทอรีจากการจัดทำดัชนี

ผิด:

ไม่อนุญาต: page.HTML

ขวา:

ไม่อนุญาต: /page.HTML

เพื่อหลีกเลี่ยงข้อผิดพลาดที่พบบ่อยที่สุด คุณสามารถตรวจสอบไฟล์ robots.txt ได้โดยใช้ Yandex.Webmaster หรือ Google Webmaster Tools การตรวจสอบจะดำเนินการหลังจากดาวน์โหลดไฟล์

6. บทสรุป

ดังนั้นการมีไฟล์ robots.txt ตลอดจนการรวบรวมไฟล์อาจส่งผลต่อการโปรโมตเว็บไซต์ในเครื่องมือค้นหา หากไม่ทราบไวยากรณ์ของไฟล์ robots.txt คุณสามารถป้องกันไม่ให้หน้าเว็บที่ได้รับการโปรโมตที่เป็นไปได้ รวมถึงทั้งไซต์ไม่ได้รับการจัดทำดัชนี และในทางกลับกัน การรวบรวมไฟล์นี้อย่างมีประสิทธิภาพสามารถช่วยส่งเสริมทรัพยากรได้อย่างมาก ตัวอย่างเช่น คุณสามารถบล็อกเอกสารที่รบกวนการโปรโมตหน้าที่จำเป็นจากการจัดทำดัชนี

เข้าร่วมการสนทนา
อ่านด้วย
สลัด
วิธีทำ ปาดตับไก่ ปาดตับไก่
น้ำผลไม้ทะเล buckthorn สำหรับฤดูหนาว - สูตรที่ดีที่สุดสำหรับเครื่องดื่มอำพัน!