SemrushBot 无法停止

Question

在过去的几天里，我正在监视我的网站日志，发现一个机器人正在大量扫描我。扫描的间隔非常频繁，每5-10秒一次。我试图通过将下一个代码写入robots.txt来阻止机器人，但 1 或 2 小时后没有任何反应，机器人仍在继续扫描。

我可以做什么来阻止机器人？这是否表明有人试图对我的网站做一些有害的事情？

User-agent: *
Allow: /

User-agent: SemrushBot
Disallow: /

日志示例

185.191.171.11 - - [07/Nov/2022:11:38:59 +0200] "GET /example_store.php?id_class=123&id_product=1234&watch=20670906 HTTP/1.1" 500 5225 "-" "Mozilla/5.0 (compatible; SemrushBot/7~bl; +http://www.semrush.com/bot.html)"

Answer 1

机器人不会在每次拨打电话时重新获取

robots.txt

。他们将文件缓存一段时间，通常是 24 小时。他们的文档没有说明他们将其缓存多长时间，但我预计您必须等待几个小时以上才能看到机器人行为的变化。

这也有可能是一些冒充已知爬虫的流氓机器人。如果是这样的话，根本不可能服从

robots.txt

。

如果您想要更直接的结果，您可以通过 IP 地址或防火墙、CDN、负载均衡器或服务器上的用户代理来阻止机器人。例如，如果您的站点使用 Apache 服务器，您可以在

.htaccess

中添加一行来阻止机器人。请参阅如何阻止特定网站浏览器代理？

Answer 2

希望 cloudflare 可以帮助您添加交互式挑战来阻止此问题。

SemrushBot 无法停止

问题描述投票：0回答：2

2个回答

最新问题

SemrushBot 无法停止

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2