可以使用 robots.txt disallow 来阻止 URL 吗？

Question

我正在尝试阻止我们的求职板被抓取。是否可以在

robot.txt

文件中使用“禁止”来阻止特定 URL？这个 URL 会是什么样子？我不想只禁止 HTML，只禁止 URL 的 URL

jobs.example.com

Disallow: https://jobs.example.com/

Answer 1

您不能将完整的 URL 放入

robots.txt

禁止规则中。您提议的规则不会按书面规定起作用：

# INCORRECT
Disallow: https://jobs.example.com/

您可能试图禁止在

jobs

子域上进行爬网。这样做是可能的。每个子域都有自己的 robots.txt 文件。您必须将服务器配置为为不同的

robots.txt

文件提供不同的内容：

那么你的工作

robot.txt

应该禁止在该子域上进行所有爬行：

User-Agent: *
Disallow: /

如果您尝试仅禁止该子域的主页，则必须使用只有主要搜索引擎才能理解的语法。您可以使用

表示“结尾为”，主要搜索引擎将正确解释它：

User-Agent: *
Disallow: /$

Answer 2

为了禁止网络爬虫对特定页面建立索引，您可以使用以下几行来执行此操作：

User-agent: *
Disallow: /path/to/page/

或整个网站

User-agent: *
Disallow: /

请注意，并非所有搜索引擎/爬虫都会尊重该文件