我可以在robots.txt中使用“Host”指令吗?

问题描述 投票:0回答:2

robots.txt
上搜索具体信息时,我偶然发现了有关此主题的 Yandex 帮助页面。它建议我可以使用
Host
指令告诉爬虫我首选的镜像域:

User-Agent: *
Disallow: /dir/
Host: www.example.com

此外,维基百科文章指出 Google 也理解

Host
指令,但信息不多(即没有)。

robotstxt.org,我在

Host
(或维基百科上所述的
Crawl-delay
)上没有找到任何内容。

  1. 是否鼓励使用
    Host
    指令?
  2. Google 有关于此
    robots.txt
    具体的资源吗?
  3. 与其他爬虫的兼容性如何?

至少自 2021 年初以来,链接条目不再涉及相关指令。

seo robots.txt
2个回答
14
投票

原始 robots.txt 规范说:

无法识别的标头将被忽略。

他们称之为“标题”,但这个术语在任何地方都没有定义。但正如在有关格式的部分以及与

User-agent
Disallow
同一段落中提到的那样,似乎可以安全地假设“标题”意味着“字段名称”。

所以是的,您可以使用

Host
任何其他字段名称。

  • 支持这些字段的Robots.txt解析器,好吧,支持它们。
  • 不支持此类字段的Robots.txt解析器必须忽略它们。

但请记住:由于 robots.txt 项目未指定它们,因此您无法确定不同的解析器以相同的方式支持该字段。所以你必须手动检查每个支持的解析器。


0
投票

Host:是 robots.txt 文件中不受支持的规则,因此最好避免使用它。 enter image description here

© www.soinside.com 2019 - 2024. All rights reserved.