Diễn Đàn SEO Panda - SEO Panda Forum

Diễn Đàn SEO Panda Dành Cho Các SEOers Tự Do Thảo Luận SEO - SEO Panda Forum - Free SEO Forum to share your knowledge to the world
 
HomeCalendarFAQSearchMemberlistUsergroupsRegisterLog in
Search
 
 

Display results as :
 
Rechercher Advanced Search
Latest topics

Share | 
 

 Googlebot và Robots.txt : Allow, Disallow

View previous topic View next topic Go down 
AuthorMessage
khiemsound



Posts : 1016
Points : 11640
Join date : 2012-03-27

PostSubject: Googlebot và Robots.txt : Allow, Disallow   Thu Apr 05, 2012 8:12 am

Bài viết này chúng ta sẽ tìm hiểu cụ thể các thức áp dụng tệp tin robots.txt này cho máy tìm kiếm Google mà cụ thể là các User Agent của Google.

Đây là bài viết thứ ba trong một loạt series bốn bài viết về Robots Exclusion Protocol (REP) :
Robots.txt disallows Web Robot, User-agent
Bài viết giới thiệu về Robots Exclusion Protocol với tệp tin robots.txt và cú pháp, cách sử dụng đúng và danh sách các User Agent Names.
Robots, HTML Meta và Google, Yahoo, Microsoft
Giới thiệu về Robots Exclusion Protocol (REP), qui ước chung của Google, Yahoo và Microsoft : Qui ước robots.txt và qui ước HTML META Tags.
Googlebot và Robots.txt : Allow, Disallow
Cách ứng dụng Robots Exclusion Protocol (REP) bằng việc sử dụng tệp tin robots.txt đối với máy tìm kiếm Google. Cách biên dịch đặc biệt tệp tin robots.txt của spider GoogleBot.
Robots META Tag – Metadata Elements
Ứng dụng Robots Exclusion Protocol (REP) thông qua sử dụng thẻ Metadata Robots cho các trang đơn lẻ.
Các User Agent của Google

Google có vài user-agent chính. Bạn có thể ngăn chúng bằng cách thêm tên của bọ tìm kiếm tương ứng và trong dòng User-agent tương ứng trong bảng ghi robots.txt. Nếu bạn chặn Googlebot thì có nghĩa là bạn chặn tất cả các bọ tìm kiếm với từ khóa “Googlebot”.
Googlebot
Đánh chỉ số từ các chỉ mục cũ và mới của Google.
Googlebot-Mobile
Đánh chỉ số cho các thiết bị cầm tay hoặc di động.
Googlebot-Image
Đánh chỉ số các tệp tin ảnh.
Mediapartners-Google
Xuất hiện trong các trang dăng quảng cáo của Google Adsense.
Adsbot-Google
Đánh chỉ số các trang được nhà quảng cáo sử dụng giới thiệu sản phẩm hay dịch vụ thông qua Google Adwords. Nó cho phép đánh giá chất lượng của trang dùng dịch vụ Adwords.
Chặn Googlebot

Để chặn toàn bộ Googlebot thì bạn thêm cú pháp sau vào file robots loại trừ :
User-agent: Googlebot
Disallow: /
Cho phép Googlebot

Trong trường hợp bạn muốn chặn tất cả các bọ tìm kiếm khác trừ một robot, Googlebot chẳng hạn, thì bạn có thể sử dụng cú pháp sau. Tuy nhiên nếu bạn không muốn trang liên quan biến mất khỏi kết quả tìm kiếm của các máy tìm kiếm như Yahoo, MSN Live hay Ask thì bạn không nên làm như thế.
User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:
Cho phép mở rộng

Google hỗ trợ cú pháp mở rộng “Allow” trong tệp tin robots.txt. Có nhiều máy tìm kiếm không hỗ trợ phần mở rộng này, vì thế bạn nên tham khảo kỹ. Dòng lệnh “Allow” hoạt động cũng giống như “Disallow” chỉ khác là nó liệt kê các thư mục hay trang bạn cho phép đánh chỉ số.

Bạn có thể sử dụng đồng thời “Allow” và “Disallow” cùng nhau. Chẳng hạn để cấm tất cả các trang trong một thư mục “seoblog” chẳng hạn, trừ tệp tin “quang-ba-web.html”, bạn hãy làm như sau :
User-agent: Googlebot
Disallow: /seoblog/
Allow: /seoblog/quang-ba-web.html

Còn trong trường hợp bạn muốn chặn Googlebot và sau đó lại vẫn muốn cho các bot khác của Google (Googlebot-Mobile) chẳng hạn, bạn có thể sử dụng lệnh Allow như sau :
User-agent: Googlebot
Disallow: /

User-agent: Googlebot-Mobile
Allow: /
Sử dụng mẫu tổ hợp

Đặc biệt hữu ích trong trường hợp bạn không muốn phải liệt kê tất cả các trang mà bạn muốn chặn. Đây là phần đuôi mở rộng mà GoogleBot hỗ trợ. Chú ý là các máy tìm kiếm khác chưa chắc đã hỗ trợ tính năng này.
Mẫu tổ hợp chuỗi các ký tự sử dụng dấu sao (*)

Bạn có thể sử dụng dấu sao (*) để liệt kê tổ hợp chuỗi các lkys tự. Ví dụ bạn có thể chặn một loạt các thư mục con bắt đầu bằng chữ wp (ví dụ wp-admin, wp-content cho blog WordPress) như sau :
User-agent: Googlebot
Disallow: /wp*/

Để chặn tất cả đường dẫn URL mà chứa ký tự (?) chứa tham biến (trong ngôn ngữ PHP), bạn hãy làm như sau :
User-agent: *
Disallow: /*?
Kiểm tra phần kết của chuỗi ký tự URL bằng $

Bạn cũng có thể sử dụng dấu dollard ($) để liệt kê các URL có phần kết tương ứng. Ví dụ để chặn tất cả các đường dẫn URL kết thúc với pdf (phiên bản pdf trên website để tránh trùng nội dung chẳng hạn) :
User-agent: Googlebot
Disallow: /*.pdf$

Bạn cũng có thể sử dụng tổ hợp kết này với lệnh Allow. Ví dụ nếu như có dấu hỏi ? tương ứng với một session ID, bạn có thể loại trừ chúng để tránh cho GoogleBot phải đánh chỉ số một nội dung trùng lặp. Thế nhưng các URLs kết thúc bởi dấu hỏi ? lại là một phiên bản trang mà bạn muốn thêm vào. Trong trường hợp này, hãy đặt tệp tin robots.txt của bạn như sau :
User-agent: *
Allow: /*?$
Disallow: /*?

Dòng lệnh Disallow:/ *? sẽ chặn tất cả các URL có chứa ký tự ? (Cụ thể là nó sẽ chặn tất cả các URL bắt đầu bằng tên miền, tiếp theo các ký tự, tiếp theo là dấu hỏi ?, tiếp theo bởi bất kể ký tự nào khác)

Dòng lệnh Allow: /*?$ sẽ cho phép bất kể đường dẫn nào kết thúc bởi dấu hỏi ? (Cụ thể là với bất kể URL nào bắt đầu bằng tên miên, theo bởi chuỗi ký tự, theo tiêp bởi dấu hỏi ?, không có ký tự nào nằm sau dấu hỏi này).
Back to top Go down
View user profile
 
Googlebot và Robots.txt : Allow, Disallow
View previous topic View next topic Back to top 
Page 1 of 1

Permissions in this forum:You cannot reply to topics in this forum
Diễn Đàn SEO Panda - SEO Panda Forum :: Search Engine Optimization :: General SEO-
Jump to: