如果我用HTTP代码418也就是 "我是个茶壶 "来响应robots.txt的请求,这会不会让搜索引擎不喜欢我?

问题描述 投票:3回答:1

我有一个非常简单的webapp,它运行在HTML5的Canvas中,没有任何需要搜索引擎索引的公共文件(除了包含调用所有必要资源的前页HTML文件)。因此,我并不真正需要 robots.txt 文件,因为他们只会看到公共文件,仅此而已。

现在,作为一个玩笑,我想在每次网络爬虫要求输入一个HTTP-418也就是 "我是一个茶壶 "的响应时,返回一个 robots.txt. 然而,如果这最终会在我在搜索结果中的位置方面搞砸了,那么这不是一个笑话,对我来说是非常值得的。

有谁知道不同的网络爬虫对非标准(虽然在这种情况下,技术上是标准的)HTTP代码会有什么反应?

另外,更严重的是,是否有任何理由在搜索结果中出现一个 robots.txt 文件中写着 "一切都可索引!",而不是没有文件?

http-headers web-crawler seo search-engine search-engine-bots
1个回答
1
投票
  1. 拥有一个空白的robots.txt文件也会告诉爬虫,你希望你的所有内容都被索引。有一个 allow 指令,但它是非标准的,不应该被依赖。这样做是好的,因为当搜索引擎试图从你的网站请求一个不存在的robots.txt时,它可以防止404错误堆积在你的访问日志中。

  2. 发送非标准的HTTP代码不是一个好主意,因为你完全不知道搜索引擎会如何回应它。如果他们不接受它,他们可能会使用404头作为后备,这显然不是你想要发生的。基本上,这是个开玩笑的坏地方。

© www.soinside.com 2019 - 2024. All rights reserved.