SemrushBot 无法停止

问题描述 投票:0回答:2

在过去的几天里,我正在监视我的网站日志,发现一个机器人正在大量扫描我。 扫描的间隔非常频繁,每5-10秒一次。我试图通过将下一个代码写入robots.txt来阻止机器人,但 1 或 2 小时后没有任何反应,机器人仍在继续扫描。

我可以做什么来阻止机器人?这是否表明有人试图对我的网站做一些有害的事情?

User-agent: *
Allow: /

User-agent: SemrushBot
Disallow: /

日志示例

185.191.171.11 - - [07/Nov/2022:11:38:59 +0200] "GET /example_store.php?id_class=123&id_product=1234&watch=20670906 HTTP/1.1" 500 5225 "-" "Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)"
web-scraping bots web-crawler robots.txt
2个回答
0
投票

机器人不会在每次拨打电话时重新获取

robots.txt
。他们将文件缓存一段时间,通常是 24 小时。 他们的文档没有说明他们将其缓存多长时间,但我预计您必须等待几个小时以上才能看到机器人行为的变化。

这也有可能是一些冒充已知爬虫的流氓机器人。如果是这样的话,根本不可能服从

robots.txt

如果您想要更直接的结果,您可以通过 IP 地址或防火墙、CDN、负载均衡器或服务器上的用户代理来阻止机器人。例如,如果您的站点使用 Apache 服务器,您可以在

.htaccess
中添加一行来阻止机器人。请参阅如何阻止特定网站浏览器代理?


0
投票

希望 cloudflare 可以帮助您添加交互式挑战来阻止此问题。

© www.soinside.com 2019 - 2024. All rights reserved.