我正在尝试阻止我们的求职板被抓取。是否可以在
robot.txt
文件中使用“禁止”来阻止特定 URL?这个 URL 会是什么样子?我不想只禁止 HTML,只禁止 URL 的 URL jobs.example.com
Disallow: https://jobs.example.com/
您不能将完整的 URL 放入
robots.txt
禁止规则中。您提议的规则不会按书面规定起作用:
# INCORRECT
Disallow: https://jobs.example.com/
您可能试图禁止在
jobs
子域上进行爬网。这样做是可能的。每个子域都有自己的 robots.txt 文件。您必须将服务器配置为为不同的 robots.txt
文件提供不同的内容:
https://example.com/robots.txt
https://jobs.example.com/robots.txt
那么你的工作
robot.txt
应该禁止在该子域上进行所有爬行:
User-Agent: *
Disallow: /
如果您尝试仅禁止该子域的主页,则必须使用只有主要搜索引擎才能理解的语法。您可以使用
$
表示“结尾为”,主要搜索引擎将正确解释它:
User-Agent: *
Disallow: /$
为了禁止网络爬虫对特定页面建立索引,您可以使用以下几行来执行此操作:
User-agent: *
Disallow: /path/to/page/
或整个网站
User-agent: *
Disallow: /
请注意,并非所有搜索引擎/爬虫都会尊重该文件