File robots.txt là gì? Tác dụng & lưu ý về robots.txt khi làm SEO

Tài liệu SEO Bình luận
File robots.txt là gì? Tác dụng & lưu ý về robots.txt khi làm SEO

File robots.txt là 1 file (tệp) dạng text được quản trị viên tạo ra nằm tại thư mục gốc của trang web, nhằm thông báo những phần thuộc trang web của bạn không muốn cấp quyền truy cập cho trình thu thập dữ liệu của công cụ tìm kiếm.

File robots.txt nằm trong thư mục gốc ngang hàng file index.php

File robots.txt nằm trong thư mục gốc ngang hàng file index.php (Xem file demo).

Giao thức Robots Exclusion Protocol (REP) là 1 chuẩn chung được thế giới công nhận và những con Bot của các công cụ (trình) thu thập dữ liệu web đều phải tuân thủ.

Trong một vài trường hợp ngoại lệ bạn sử dụng file robots.txt để chặn nhưng vẫn có những loại bot spam hoặc người dùng submit (hoặc có liên kết tới link bạn chặn) tới các công cụ thu thập đó.

Chú pháp của file robots.txt

User-agent: [Đây là tên của robot được áp dụng quy tắc sau]

Disallow: [Đây là đường dẫn URL mà bạn muốn chặn]

Allow: [Đây là đường dẫn URL trong một thư mục con, trong một thư mục gốc bị chặn, mà bạn muốn bỏ chặn]

Bạn có thể copy file, tham khảo file demo thay link sitemap của tôi bằng của bạn (xem thêm sitemap là gì?).

Một vài trường hợp các lệnh trong file robotx.txt chống lại nhau, các bạn nên đặt mật khẩu cho thư mục đó hoặc dùng thẻ meta <head>…</head>

Để chặn hầu hết các bot thì dùng:

<meta name="robots" content="noindex">

Để chặn chỉ trình thu thập dữ liệu web Google lập chỉ mục trang:

<meta name="googlebot" content="noindex">

Để hiểu hết về cấu trúc và nguyên lý của nó cũng khá phức tạp, khi bạn đã add website của mình vào Search Console thì có thể kiểm tra bằng cách:

Truy cập Search Console –> Thu thập dữ liệu -> Bộ kiểm tra robots.txt

Bộ kiểm tra robots.txt trong Search Console

Bộ kiểm tra robots.txt trong Search Console

 

Tác dụng và những lưu ý khi làm SEO

Như chúng ta đã biết ở trên thì file robots.txt nhằm phân quyền cho các bot được quyền truy cập và lập chỉ mục các thư mục, url nào trên website của bạn.

Robots.txt là một yếu tố xếp hạng website theo mình nên cần thiết có và bên cạnh đó thì còn tác dụng:

  1. Nhằm hạn chế quá tải của máy chủ khi bot Google và các loại bot thu thập dữ liệu, hãy xác định chỉ những url, thư mực nào cần thiết thì cấp quyền.
  2. Nếu không muốn 1 url hay thư mục nào lập chỉ mục trên các công cụ tìm kiếm tốt nhất là đặt password hoặc dùng thẻ meta noindex.
  3. Nhằm hạn chế 1 số công cụ SEO check backlink, công cụ phân tích website tự động tránh đối thủ dòm ngó nên chặn bot của chúng (tham khảo file demo).
File robots.txt là gì? Tác dụng & lưu ý về robots.txt khi làm SEO
5 (100%) 5 votes

Tác giả

Thuy Cuong là biệt danh của anh ấy. Tên thật của anh ấy là Trần Ngọc Thùy một người đam mê SEO, Marketing. Bạn có thể tìm thấy anh ấy @tranngocthuycom, Trần Thùy.

Bài viết khác

Bình luận