可以使用 robots.txt disallow 来阻止 URL 吗?

问题描述 投票:0回答:2

我正在尝试阻止我们的求职板被抓取。是否可以在

robot.txt
文件中使用“禁止”来阻止特定 URL?这个 URL 会是什么样子?我不想只禁止 HTML,只禁止 URL 的 URL
jobs.example.com

Disallow: https://jobs.example.com/
html meta-tags user-agent nofollow noindex
2个回答
0
投票

您不能将完整的 URL 放入

robots.txt
禁止规则中。您提议的规则不会按书面规定起作用

# INCORRECT
Disallow: https://jobs.example.com/

您可能试图禁止在

jobs
子域上进行爬网。这样做是可能的。每个子域都有自己的 robots.txt 文件。您必须将服务器配置为为不同的
robots.txt
文件提供不同的内容:

  • https://example.com/robots.txt
  • https://jobs.example.com/robots.txt

那么你的工作

robot.txt
应该禁止在该子域上进行所有爬行:

User-Agent: *
Disallow: /

如果您尝试仅禁止该子域的主页,则必须使用只有主要搜索引擎才能理解的语法。您可以使用

$
表示“结尾为”,主要搜索引擎将正确解释它:

User-Agent: *
Disallow: /$

-1
投票

为了禁止网络爬虫对特定页面建立索引,您可以使用以下几行来执行此操作:

User-agent: *
Disallow: /path/to/page/

或整个网站

User-agent: *
Disallow: /

请注意,并非所有搜索引擎/爬虫都会尊重该文件

© www.soinside.com 2019 - 2024. All rights reserved.