Bingbot 每天会在几个小时内非常频繁地访问我的网站,而在其余时间里会非常轻松。
我要么想平滑其爬行,降低其速率限制,要么完全阻止它。它并没有真正发送任何真正的访客。
有没有办法可以平滑其爬行,或对其进行速率限制?
他们的网站管理员博客说他们支持在您的
robots.txt
文件中添加抓取延迟参数以限制 bingbot。
User-agent: msnbot
Crawl-delay: 1
网站管理员常见问题解答 PDF中有更多解释。
这些其他链接也可能有帮助:
https://www.bing.com/webmasters/about
http://www.bing.com/community/webmaster/f/12252/t/651373.aspx
您可以限制爬虫到f.i.的连接数。 5 通过像这样设置 IPTables(需要对防火墙进行 root 访问):
IPTables的设置: iptables -I INPUT -p tcp -m connlimit --connlimit-above 5 -j 拒绝
这会将每个 IP 地址的连接限制为不超过 5 个同时连接。这种“定量”连接,并防止爬虫同时访问该网站。
您可以使用 HTACCESS 禁止他的 IP。
order allow,deny
deny from 192.168.44.201
deny from 224.39.163.12
deny from 172.16.7.92
allow from all
您可以在这里找到更多相关信息:有关机器人拦截的博客