如果我用HTTP代码418也就是 "我是个茶壶 "来响应robots.txt的请求，这会不会让搜索引擎不喜欢我？

问题描述投票：3回答：1

我有一个非常简单的webapp，它运行在HTML5的Canvas中，没有任何需要搜索引擎索引的公共文件（除了包含调用所有必要资源的前页HTML文件）。因此，我并不真正需要 robots.txt 文件，因为他们只会看到公共文件，仅此而已。

现在，作为一个玩笑，我想在每次网络爬虫要求输入一个HTTP-418也就是 "我是一个茶壶 "的响应时，返回一个 robots.txt. 然而，如果这最终会在我在搜索结果中的位置方面搞砸了，那么这不是一个笑话，对我来说是非常值得的。

有谁知道不同的网络爬虫对非标准（虽然在这种情况下，技术上是标准的）HTTP代码会有什么反应？

另外，更严重的是，是否有任何理由在搜索结果中出现一个 robots.txt 文件中写着 "一切都可索引！"，而不是没有文件？

http-headers web-crawler seo search-engine search-engine-bots

1个回答

1
投票

拥有一个空白的robots.txt文件也会告诉爬虫，你希望你的所有内容都被索引。有一个 allow 指令，但它是非标准的，不应该被依赖。这样做是好的，因为当搜索引擎试图从你的网站请求一个不存在的robots.txt时，它可以防止404错误堆积在你的访问日志中。
发送非标准的HTTP代码不是一个好主意，因为你完全不知道搜索引擎会如何回应它。如果他们不接受它，他们可能会使用404头作为后备，这显然不是你想要发生的。基本上，这是个开玩笑的坏地方。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.