Cách khóa file Robots.txt và các công cụ tìm kiếm

 

Cách khóa file Robots.txt và các công cụ tìm kiếm

Nếu bạn muốn ngăn chặn các bot từ các công cụ tìm kiếm xâm nhập vào trang web của mình thì có thể sử dụng đoạn code sau:
#Code to not allow any search engines!
User-agent: *
Disallow: /

Bạn cũng có thể ngăn chặn các bot xâm nhập và lấy thông tin của một số file nhất định bằng việc sử dụng đoạn code dưới đây (đoạn code này là để ngăn chặn xâm nhập cho các file cgi-bin, tmp, junk)
# Blocks robots from specific folders / directories
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

Trong ví dụ trên http://www.yoursitesdomain.com/junk/index.html là đường link bị chặn nhưng http://www.yoursitesdomain.com/index.html và http://www.yoursitesdomain.com/someotherfolder/ sẽ có thể được thu thập thông tin.
Lưu ý: File Robots.txt hoạt động giống như biển báo “không xâm phạm”. Nó cho các bot biết rằng chúng có thể thu thập dữ liệu của trang web hay không chứ nó không thực sự ngăn chặn các bot xâm nhập. Các bot chuẩn và hợp pháp sẽ nghe theo chỉ thị của bạn có cho phép xâm nhập hay không chính vì vậy mà bạn cần sử dụng các công cụ quản trị web cho Bingbot và Googlebot vì họ không nghe theo file Robots.txt, nội dung bên dưới sẽ giúp bạn hiểu rõ hơn:

Hệ thống Google và Bing

Google và Bing không nghe theo file tiêu chuẩn Robots.txt nên bạn có thể tạo tài khoản quản trị hệ thống Google và Bing và cấu hình các tên miền của mình để có chế độ thu thập dữ liệu thấp hơn. Bạn có thể xem thêm tài liệu của Google về file Robots.txt https://support.google.com/webmasters/answer/6062608?hl=en&visit_id=1-636252740320275113-2452672579&rd=1, ngoài ra bạn cũng phải sử dụng các công cụ webmaster của Google để thiết lập hầu hết các tham số của Googlebot.

Mình có một lời khuyên dành cho các bạn là các bạn nên cấu hình file Robots.txt để giảm tốc độ thu thập thông tin từ trang web của bạn, đồng thời làm giảm tài nguyên mà nó yêu cầu từ hệ thống, điều này làm cho lưu lượng truy cập trang web của bạn tốt hơn.
Nếu bạn muốn giảm lưu lượng truy cập từ các công cụ như Yandex hoặc Baidu, bạn cần phải cấu hình file .htaccess.

File Robots mặc định của wordpress:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Hoặc Bạn có thể tham khảo code này

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-admin/images/*
Sitemap: https://domain-cua-ban.com/sitemap.xml

(thay hostingviet.vn bằng domain của Bạn)

Lời kết
Như vậy mình đã hướng dẫn các bạn cách sử dụng file robots.txt cũng như mục đích cùa file. Nếu có nhu cầu sử dụng hosting, tên miền thì hãy liên hệ với bên mình để được hưởng những ưu đãi tốt nhất nhé. Chúc các bạn thành công!

Nhận xét

Bài đăng phổ biến từ blog này

Sửa sản phẩm tương tự trong Flatsome