我有一个非常简单的webapp,它运行在HTML5的Canvas中,没有任何需要搜索引擎索引的公共文件(除了包含调用所有必要资源的前页HTML文件)。因此,我并不真正需要 robots.txt
文件,因为他们只会看到公共文件,仅此而已。
现在,作为一个玩笑,我想在每次网络爬虫要求输入一个HTTP-418也就是 "我是一个茶壶 "的响应时,返回一个 robots.txt
. 然而,如果这最终会在我在搜索结果中的位置方面搞砸了,那么这不是一个笑话,对我来说是非常值得的。
有谁知道不同的网络爬虫对非标准(虽然在这种情况下,技术上是标准的)HTTP代码会有什么反应?
另外,更严重的是,是否有任何理由在搜索结果中出现一个 robots.txt
文件中写着 "一切都可索引!",而不是没有文件?
拥有一个空白的robots.txt文件也会告诉爬虫,你希望你的所有内容都被索引。有一个 allow
指令,但它是非标准的,不应该被依赖。这样做是好的,因为当搜索引擎试图从你的网站请求一个不存在的robots.txt时,它可以防止404错误堆积在你的访问日志中。
发送非标准的HTTP代码不是一个好主意,因为你完全不知道搜索引擎会如何回应它。如果他们不接受它,他们可能会使用404头作为后备,这显然不是你想要发生的。基本上,这是个开玩笑的坏地方。