Bạn không thể nào hình dung ra được robot của công cụ tìm kiếm phân tích dữ liệu để index như thế nào? Bạn không hiểu Robots.txt là gì? Robots.txt chính là nơi mà có thể quản trị web kèm theo các cấu hình hướng dẫn robot cũng như cách thu thập các dữ liệu trên trang web của họ.
Nhưng thực tế cho thấy rằng các tệp Robots.txt chỉ cho biết một số user và agent và không thể thu thập các dữ liệu dựa trên các thành phần của website.
Vậy Robots.txt là gì và cách tạo ra file Robots.txt là gì? Bạn hãy cùng tìm hiểu nhé.
I/ File robots.txt là gì?
File robots.txt được biết đến là một tập tin văn bản ở dạng .txt. Ở tệp này thì có một phần là của robots Exclusion Protocol có chứa các tiêu chuẩn web theo quy định và đồng thời quản lý thu thập các dữ liệu ở trên web, cho phép truy cập và index nội dung và cung cấp các nội dung đó cho người dùng.
Trong đó, REP cũng gồm các lệnh như meta robots, page-subdirectory và site-wide instructions được hướng dẫn để cho các công cụ tìm kiếm xử lý một số liên kết. Điều đó sẽ giúp cho các nhà quản trị có thể quản trị web một cách linh hoạt hơn, chủ động hơn trong việc cho phép hoặc không cho các con bot công cụ tìm kiếm index nội dung.
Ngoài ra, bạn còn có thể dùng code schema để hỗ trợ cho công cụ tìm kiếm, giúp Bot Google hiểu rõ về chủ đề, lĩnh vực website của bạn hơn. Sử dụng Schema cũng là một trong những kỹ thuật quản trị web và được đánh giá cao, một số trang web như monamedia.co đã triển khai và đạt được kết quả SEO tốt hơn trước rất nhiều.
1. Cú pháp của tệp robots.txt
Các cú pháp ở đây thì được xem là các dòng lệnh riêng trong tập tin Robots.txt. Và thông thường sẽ được chia thành 5 thuật ngữ phổ biến mà chúng sẽ bao gồm có:
- Usee – agent: Là tên các trình thu thập và truy cập vào dữ liệu web (thường là các bot tìm kiếm của search engine)
- Disallow: Dùng để thông báo cho các user – agent không thu thập dữ liệu URL cụ thể nào đó. Mỗi một URL chỉ sử dụng được 1 Disallow.
- Allow: Là lệnh thư thông báo cho Googlebot có thể truy cập vào 1 trang hay thư mục con.
- Crawl – delay: Thông báo đến cho các web crawler biết phải chờ đợi trong bao nhiêu giây trước khi tải và thu thập nội dung của trang.
- Site map: Được dùng trong cung cấp các vị trí bất kỳ trên sitemap XML được liên kết với URL. ( lệnh này chỉ hỗ trợ cho các công cụ tìm kiếm như google, ask, bing với yahoo).
2. Robots.txt file hoạt động như thế nào?
Để Robots.txt có thể hoạt động được thì cần phải thực hiện được 2 nhiệm vụ chính đó là:
(1): Crawl để cào hoặc phân tích các dữ liệu trên web để khám phá các nội dung
(2): Index nội dung để đáp ứng được nhu cầu tìm kiếm của người dùng.
Để crawl được dữ liệu thì các công cụ tìm kiếm cần phải liên kết từ trang này qua trang khác, thu thập được mọi dữ liệu từ các trang khác nhau và có tên gọi khác là spidering.
Ngay sau khi đến một trang web nào đó thì trước khi spidering thì các con bot của công cụ tìm kiếm sẽ tìm kiếm các file Robots.txt. Trường hợp, tìm thấy được 1 tệp Robots.txt thì sẽ đọc tệp đó lên đầu tiên và tiến hành các bước tiếp theo.
Khi đó các file Robots.txt sẽ chứa các thông tin về các công cụ tìm kiếm, phân tích và cho phép thu thập dữ liệu ở những thư mục xác định, chặn ở một số thư mục không cho thu thập dữ liệu.
Đặc biệt, tệp Robots.txt không chứa bất kỳ chỉ thị nào cho các user – agent, hay nếu như bạn không tạo file Robots.txt cho website thì các con bots cũng sẽ tự tiến hành thu thập toàn bộ thông tin khác trên website.
3. Robot.txt ở đâu trên trang web?
Tuy nhiên, bất cứ khi nào một trang web hay công cụ tìm kiếm trên web crawler thì ngay lập tức tìm kiếm tệp Robots.txt. Nhưng phạm vi tìm kiếm chỉ là 1 nơi cụ thể và đó chính là thư mục chính.
Sau đó sẽ tiến hành thu thập dữ liệu có trong website. Nhưng trường hợp các tệp Robots.txt có tồn tại nhưng lại không tìm thấy bởi web crawler thì mặc định sẽ được xử lý tương tự như các trang web không được tạo file Robots.txt.
Vì vậy hãy bảo đảm được trình thu thập dữ liệu tìm thấy được các tệp Robots.txt và trong thư mục chính lẫn root domain.
>> Tham khảo thêm: Subdomain là gì? Tầm ảnh hưởng của subdomain ảnh hưởng đến SEO
II/ Tại sao phải tạo file robots.txt cho wordpress?
Việc tạo ra các file Robots.txt sẽ hỗ trợ cho bạn nhiều hơn trong việc kiểm soát và truy cập các con bots đến các khu vực nhất định. Điều này có thể sẽ trở nên vô cùng nguy hiểm nếu chẳng may sai vài thao tác nhỏ sẽ làm cho Googlebot không thể index trang website của bạn.
Vậy, tại sao phải tạo file Robots.txt cho WordPress? Bởi vì:
- Ngăn chặn một số nội dung trùng lặp xuất hiện trên trang web bị Google thu thập dữ liệu.
- Giữ lại các phần trong trang ở chế độ riêng tư, cần bảo mật
- Giữ lại các kết quả tìm kiếm nội bộ mà không cho hiển thị trên SERP
- Chỉ định vị trí của sitemap
- Ngăn chặn các công cụ tìm kiếm index ở một số tệp nhất định trên trang website của bạn
- Sử dụng các lệnh crawl delay để cài đặt thời gian. Ngăn chặn máy chủ bị quá tải khi thu thập các dữ liệu cùng lúc
Nếu không muốn ngăn các web crawler thu thập dữ liệu từ website thì bạn không cần tạo file Robots.txt cho wordpress.
III/ Các cách kiểm tra website có tệp robots.txt
Nếu bạn đang không biết web của mình có tệp Robots.txt hay không thì hãy nhập root domain của bạn rồi thêm /Robots.txt cuối URL. Nếu có thì nó sẽ hiện ra và ngược lại.
IV/ 3 cách tạo file robot.txt
Ngoài ra, bạn hãy tham khảo ngay 3 cách tạo file Robots.txt ngay sau đây.
1. Dùng Yoast SEO
Rất đơn giản thôi! Đầu tiên bạn hãy đăng nhập vào website và sẽ thấy được giao diện của trang Dashboard -> phía trái màn hình bấm vào SEO-> Tools -> File editor
Đồng thời bạn có thể chỉnh sửa hoặc tạo tệp robots.txt cho wordpress trên chính WordPress Dashboard thông qua các thao tác đơn giản.
Tuy nhiên, tính năng file editor này không hiện ra nếu web bạn vẫn chưa được kích hoạt chỉnh sửa file.
Vậy nên hãy kích hoạt qua FTP và hiện ra mục .htaccess file và nút Create robots.txt file – là bạn có thể tạo file Robots.txt được rồi.
2. Dùng bộ plugin All in One SEO
Thông qua bộ plugin All in One SEO để tạo file robots.txt vừa tiện lợi lại nhanh chóng, dễ dùng.
Khi đó bạn vào giao diện chính plugin All in One SEO Pack -> All in One SEO-> Features Manager -> chọn Active cho mục Robots.txt.
3. Tạo và upload file robots.txt WordPress qua FTP
Với cách tạo và upload file Robots.txt thì bạn chỉ cần tạo file Robots.txt thủ công cho wordpress.
Bạn chỉ mất khoảng một thời gian ngắn để tạo file Robots.txt thông qua notepad hay textedit để tạo mẫu file Robots.txt.
Cuối cùng bạn upload file qua FTP mà không cần sử dụng plugin, không tốn quá nhiều thời gian.
V/ Một số lưu ý khi sử dụng file robots.txt
- Hầu hết các liên kết trang khi bị chặn do tạo file Robots.txt thì đều không được các bots theo dõi trừ khi các link này được liên kết với các trang khác.
- Khi đó các link sẽ không được truyền đến trang đích nên phải chọn phương pháp khác thay vì tạo file Robots.txt.
- Bạn cũng không nên dùng file Robots.txt để ngăn dữ liệu nhạy cảm xuất hiện trong kết quả. – Nếu muốn chặn thì dùng mật khẩu hay dùng noindex meta directive.
VI/ Kết luận
Mong rằng, các thông tin trong bài viết này sẽ giúp bạn hiểu hơn về Robots.txt. Cách kiểm tra cũng như cách tạo file Robots.txt đơn giản và nhanh nhất giúp cho bạn có thể hỗ trợ cho các bot công cụ tìm kiếm thu thập dữ liệu, index nhanh chóng.
Chúc bạn thành công nhé!
Theo dõi diễn đàn ketnoidamme.vn tại Fanpage: Kết nối đam mê
Xem thêm các bài viết mới nhất của diễn đàn tại : Ketnoidamme.vn