有没有办法通过使用 PhantomJS 和/或像 Anemone 这样的 ruby 爬虫来防止伪造 Google Analytics 统计数据?
我们的监控工具(基于两者)从我们的客户端抓取网站并更新特定域中每个链接的链接状态。
问题,模拟巨大的流量。
有没有办法用 cookie、标头或其他东西说“我是机器人,不要跟踪我”之类的话?
(将爬虫 IP 添加到 Google Analytics [作为过滤器]可能不是最好的解决方案)
我找到了针对这个特定问题的快速解决方案。从所有 Google Analytics 统计数据中排除执行 js(如 phantomjs)的爬虫的最简单方法是,通过 /etc/hosts 阻止 Google Analytics 域。
127.0.0.1 www.google-analytics.com
127.0.0.1 google-analytics.com
这是防止虚假数据的最简单方法。这样,您就不必为所有客户端添加过滤器。
(感谢其他答案)
IP过滤可能还不够,但也许可以通过用户代理字符串进行过滤(可以用phantom任意设置)?这将是过滤器中的“浏览器”字段。