来自 Google 托管 IP 的垃圾邮件流量

问题描述 投票:0回答:1

由于来自 Google 托管 IP 地址的潜在垃圾邮件流量,我的网站面临严重问题。这是两个例子:

示例1: IP:34.77.98.119 |用户代理:报纸/0.2.8 主机名:119.98.77.34.bc.googleusercontent.com

示例2: IP:34.170.179.100 |用户代理:go-http-client/2.0 主机名:100.179.170.34.bc.googleusercontent.com

正如您在上面看到的,主机名中的 IP 地址已被反转,并且 UA 很神秘/Google 授权文档中未提及,例如 [1] https://developers.google.com/search/docs/crawling-索引/overview-google-crawlers 和 [2] https://developers.google.com/search/docs/crawling-indexing/verifying-googlebot.

我需要确保我的网站保持安全且用户友好。我也不想在解决这个问题时错误地阻止合法的 Google 爬虫。

我请求社区提供以下指导: 如何区分来自 Google 托管 IP 的合法流量和恶意流量。 (就合法性而言,我主要关心的是 Google 爬虫和服务,其他人我都会进行安全配置文件并确定我们是否认为它们对我们是恶意的)。

[1]和[2]中的列表似乎不完整,因为当我触发Google Pagespeed Insights工具的点击时,IP是66.249.82.64,UA是“Mozilla/5.0(Macintosh;Intel Mac OS X 10_15_7) AppleWebKit/537.36(KHTML,如 Gecko)Chrome/94.0.4590.2 Safari/537.36 Chrome-Lighthouse”,主机名映射到 google-proxy-66-249-82-64.google.com,但两者(UA 和主机名)上述两个正版UA和爬虫列表[1]和[2]中没有提到,包括“user-triggered-fetchers”。同样,在上面的两个示例中,主机名以 bc.googleusercontent.com 结尾,并且该主机名也没有列在上面的 google 正版爬虫中。

期待了解如何基于 UA 和 IP 组合,将真正的 Google 触发流量与恶意流量分开,这些流量也是由 Google 服务器(例如 Google 云/计算引擎 VM 等)生成的,世界上任何人都可以“租用” .

google-cloud-platform google-app-engine google-compute-engine user-agent spam
1个回答
0
投票

您链接到的第二个文档展示了如何“手动验证”Google 抓取工具。按照该部分中的步骤操作,然后对于您的第一个 IP,您将运行命令

$ host 34.77.98.119

这给出了

119.98.77.34.in-addr.arpa domain name pointer 119.98.77.34.bc.googleusercontent.com.

然后跑步

host 119.98.77.34.bc.googleusercontent.com

给予

119.98.77.34.bc.googleusercontent.com has address 34.77.98.119

从上面来看,我会说IP来自Google

验证域名是否为 googlebot.com、google.com 或 googleusercontent.com

© www.soinside.com 2019 - 2024. All rights reserved.