|
Google 使用多个 user-agent。您可以在条目的 User-Agent 行中包含漫游器名称来拦截对网页的访问。拦截 Googlebot 将会拦截所有以"Googlebot"开头的漫游器。
Googlebot: 从我们的网站索引和资讯索引中抓取网页 Googlebot-Mobile:针对我们的移动索引抓取网页 Googlebot-Image:针对我们的图片索引抓取网页 Mediapartners-Google:抓取网页确定 AdSense 的内容。只有在您的网站上展示 AdSense 广告的情况下,我们才会使用此漫游器来抓取您的网站。 Adsbot-Google:抓取网页来衡量 AdWords 目标网页的质量。如果您使用 Google AdWords 来宣传您的网站,我们才使用这种漫游器。查找有关此漫游器的详情以及如何在网站上执行部分拦截。 例如,要完全拦截 Googlebot,您可以使用下列语法: User-agent:Googlebot Disallow:/允许 Googlebot 如果您要阻止除 Googlebot 以外的所有漫游器访问您的网页,可以使用下列语法: User-agent:* Disallow:/ User-agent:Googlebot Disallow:Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。 "Allow"扩展名 Googlebot 可识别称为"Allow"的 robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。"Allow"行的作用原理完全与"Disallow"行一样。只需列出您要允许的目录或页面即可。 您也可以同时使用"Disallow"和"Allow"。例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目: User-Agent:Googlebot Disallow:/folder1/ Allow:/folder1/myfile.html这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。 如果您要拦截 Googlebot 并允许 Google 的另一个漫游器(如 Googlebot-Mobile),可使用"Allow"规则允许该漫游器的访问。例如: User-agent:Googlebot Disallow:/ User-agent:Googlebot-Mobile Allow: |