Robots.txt là file văn bản có cấu trúc, khi các
spider (bot, crawler) của các SE (Search engine) vào website để
thu thập dữ liệu thì sẽ vào file robots.txt để xem các chỉ dẫn trong file này.
robots.txt có thể quy
định từng loại bot khác nhau của các SE khác nhau có thể vào website hay từng
khu vực của website hay không?
Vài loại bot của các SE:
Googlebot (Google), Googlebot-Image(Google), Yandex(SE của Nga),
Bingbot(Bing)/Yahoo Slurp(Yahoo)…
Những cú pháp thông dụng
trong file robots.txt
User-agent: đối
tượng bot được chấp nhận
Disallow/Allow: URL muốn chặn/cho phép
Disallow/Allow: URL muốn chặn/cho phép
*: Đại diện cho tất cả
Ví dụ: User-agent: * (Có nghĩa là chấp nhận tất
cả các loại bot.)
Khóa toàn bộ site
Disallow: /
Disallow: /
Chặn 1 thư mục và
mọi thứ nằm trong nó
Disallow: /wp-admin/
Disallow: /wp-admin/
Chặn 1 trang
Disallow: /private_file.html
Disallow: /private_file.html
Loại bỏ 1 hình từ
Google Images
User-agent: Googlebot-Image
Disallow: /images/sexy.jpg
User-agent: Googlebot-Image
Disallow: /images/sexy.jpg
Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /
User-agent: Googlebot-Image
Disallow: /
Chặn 1 file hình
bất kỳ, ví dụ .gif
User-agent: Googlebot-Image
Disallow: /*.gif$
User-agent: Googlebot-Image
Disallow: /*.gif$
Những điều cần tránh
trong file robots.txt
- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoản trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp
lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
Cách tạo và vị trí
đặt file robots.txt
- Dùng notepad hay bất cứ chương trình nào tạo file, sau đó đổi
tên file là robots.txt.
- Đặt ở thư mục gốc của website.
(http://luuquangvu.net/robots.txt)
Bài hướng dẫn cách
sử dụng file robots.txt hy vọng đã giúp ích được cho các bạn đọc.
Nguồn : luuquangvu.net
1 nhận xét:
Bài này thực sự rất bổ ích, xin cảm ơn bạn!
web của mình bán sim số đẹp nên lượng truy vấn data nhiều cần chặn image từ G
Đăng nhận xét