File robots.txt là gì? Tác dụng & lưu ý về robots.txt khi làm SEO

Discussion in 'Thuật ngữ SEO/SEM' started by tranngocthuy, Jul 6, 2017.

File robots.txt là gì? Tác dụng & lưu ý về robots.txt khi làm SEO 5 5 1votes
5/5, 1 vote

  1. tranngocthuy

    tranngocthuy Administrator Staff Member VIP lamSEO.com

    File robots.txt là 1 file (tệp) dạng text được quản trị viên tạo ra nằm tại thư mục gốc của trang web, nhằm thông báo những phần thuộc trang web của bạn không muốn cấp quyền truy cập cho trình thu thập dữ liệu của công cụ tìm kiếm.

    Giao thức Robots Exclusion Protocol (REP) là 1 chuẩn chung được thế giới công nhận và những con Bot của các công cụ (trình) thu thập dữ liệu web đều phải tuân thủ.

    Trong một vài trường hợp ngoại lệ bạn sử dụng file robots.txt để chặn nhưng vẫn có những loại bot spam hoặc người dùng submit (hoặc có liên kết tới link bạn chặn) tới các công cụ thu thập đó.

    Cú pháp của file robots.txt
    User-agent: [Đây là tên của robot được áp dụng quy tắc sau]
    Disallow: [Đây là đường dẫn URL mà bạn muốn chặn]
    Allow: [Đây là đường dẫn URL trong một thư mục con, trong một thư mục gốc bị chặn, mà bạn muốn bỏ chặn]

    Bạn có thể copy file, tham khảo file demo thay link sitemap của tôi bằng của bạn.

    Một vài trường hợp các lệnh trong file robotx.txt chống lại nhau, các bạn nên đặt mật khẩu cho thư mục đó hoặc dùng thẻ meta <head>…</head>

    Để chặn hầu hết các bot thì dùng:

    <meta name="robots" content="noindex">
    Để chặn chỉ trình thu thập dữ liệu web Google lập chỉ mục trang:

    <meta name="googlebot" content="noindex">
    Để hiểu hết về cấu trúc và nguyên lý của nó cũng khá phức tạp, khi bạn đã add website của mình vào Search Console thì có thể kiểm tra bằng cách:

    Truy cập Search Console –> Thu thập dữ liệu -> Bộ kiểm tra robots.txt

    Tác dụng và những lưu ý khi làm SEO
    Như chúng ta đã biết ở trên thì file robots.txt nhằm phân quyền cho các bot được quyền truy cập và lập chỉ mục các thư mục, url nào trên website của bạn.

    Robots.txt là một yếu tố xếp hạng website theo mình nên cần thiết có và bên cạnh đó thì còn tác dụng:

    1. Nhằm hạn chế quá tải của máy chủ khi bot Google và các loại bot thu thập dữ liệu, hãy xác định chỉ những url, thư mực nào cần thiết thì cấp quyền.
    2. Nếu không muốn 1 url hay thư mục nào lập chỉ mục trên các công cụ tìm kiếm tốt nhất là đặt password hoặc dùng thẻ meta noindex.
    3. Nhằm hạn chế 1 số công cụ SEO check backlink, công cụ phân tích website tự động tránh đối thủ dòm ngó nên chặn bot của chúng (tham khảo file demo).
     
    Last edited: Jul 6, 2017
    Tags:
    phamduy.vn, Julio and tamle like this.
  2. giaphatland999

    giaphatland999 Moderator Staff Member

    bài viết rất kỹ càng. cảm ơn ad
     
    tranngocthuy likes this.
  3. olalavui

    olalavui Moderator Staff Member

    Con bots nào k chặn nổi = robots.txt thì redirect thẳng e nó về landing page chuyên trị chờ đón bots :D bổ sung thế cho đủ a :D
     
    tranngocthuy likes this.
  4. giaphatland999

    giaphatland999 Moderator Staff Member

    bác cứ hài
     
  5. olalavui

    olalavui Moderator Staff Member

    Cũng fun fun tý, nhưng sự thật vẫn có bạn làm thế mà :)
     
  6. Uầy, cái file demo có nhiều mục thật. Của em có hơn 10 dòng à :D Em phải ngâm cứu cái file trên tranngocthuy.com của bác để bắt chước thôi.
     
  7. tamle

    tamle Moderator Staff Member

    Em đã bảo rồi, File Robots.txt nên để nội dung là:
    User-agent: *
    Disallow: /
    SEO bảo đảm không sợ google luôn.
     
    heocononline and Tin Pham like this.
  8. Ngoc Vu

    Ngoc Vu New Member VIP lamSEO.com

    Ngắn gọn, đỡ dài dòng.
     
  9. heocononline

    heocononline New Member

    User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php của em như vậy thì ảnh hưởng gì không anh?
     
  10. tamle

    tamle Moderator Staff Member

    Mình giỡn đó bạn, cái đó là chặn cmn bot google luôn rồi :). Xài thiệt là khỏi SEO nha :p
     
    tranngocthuy likes this.
Rate this thread:
/5,

Share This Page

Loading...