这由“用户代理”指示,它看起 电子邮件列表 来像这样:p 用户代理:Googlebot →您好 Googlebot,欢迎访问我的网站。以下说明适合您。 用户代理:Bing → Hi Bingbot,欢迎访问我的网站。以下说明适合您。 用户代理:* →大家好,欢迎来到 电子邮件列表 我的网站。以下说明适合您。 最后一个带有“*”的用户代理为所有机器人提供说明。 排除单个页面 如 电子邮件列表 果您不希望某个页面被编入索引,您可以使用“disallow”语句将其排除。您可以按如下方式执行此操作: 用户代理:Googlebot 禁止: 我不想抓取。您好 Googlebot,欢迎访问我的网站。
您不允许访问页面/这是我不想抓取的页面.html。 排除文件夹 如 电子邮件列表 果要排除整个文件夹,请使用: 用户代理:Googlebot 禁止: 我不想被抓取/ 您好 Googlebot,欢迎访问我的网站。不允许您访问文件夹/这是我不想抓取的文件夹/。 上面的文 电子邮件列表 字意味着也可能无法访问底层页面。所以: 您好 Googlebot,欢迎访问我的网站。文件夹 允许访问 此外,还有“允许”语句。有了这个,你就可以表明你什么时候想要一个页面被索引。默认情况下,机器人会抓取所 电子邮件列表 有内容,因此不需要只添加带有允许语句的页面。
那么为什么存在允许语句呢?可能是您不希望机器人抓 电子邮件列表 取某个文件夹,但可以再次抓取该文件夹中的某些内容。然后你会得到: 用户代理:Googlebot 禁止: 我不想抓取/ 允许: 我不想抓取/但是这个页面可以。html 您好 Googlebot,欢迎 电子邮件列表 访问我的网站。不允许您访问文件夹/这是我不想爬取的文件夹/,但是您可以访 电子邮件列表 问该文件夹内的“”页面。 根据字符阻止 URL 除了阻止整个目录或页面之外,还可以阻止包含某些字符的 URL。这是通过字符“*”完成的。