让PHP网络爬虫尊重任何网站的robots.txt文件

Question

我开发了一个网络爬虫，现在我想尊重我正在爬行的网站的robots.txt文件。

我看到这是robots.txt文件结构：

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

我可以逐行读取，然后使用带有空格字符的爆炸作为分隔符来查找数据。

还有其他方法可以加载整个数据吗？

这种文件有像 XPath 那样的语言吗？

或者我必须解释整个文件吗？

欢迎任何帮助，甚至是链接，如果发现重复...

Answer 1

结构非常简单，因此您能做的最好的事情可能就是自己解析文件。我会逐行阅读它，正如你所说，寻找诸如用户代理、禁止等关键字。