使用自定义爬虫防止虚假分析统计数据

问题描述 投票:0回答:3

有没有办法通过使用 PhantomJS 和/或像 Anemone 这样的 ruby 爬虫来防止伪造 Google Analytics 统计数据?

我们的监控工具(基于两者)从我们的客户端抓取网站并更新特定域中每个链接的链接状态。

问题,模拟巨大的流量。

有没有办法用 cookie、标头或其他东西说“我是机器人,不要跟踪我”之类的话?

(将爬虫 IP 添加到 Google Analytics [作为过滤器]可能不是最好的解决方案)

google-analytics web-crawler phantomjs anemone
3个回答
3
投票

Joe,尝试设置高级排除过滤器 - 使用字段浏览器并进入“过滤器模式”,输入 phantom 的用户代理名称(或任何其他用户代理 - 在中查找所需的名称)您的 技术 -> 浏览器和操作系统报告)。

enter image description here


1
投票

我找到了针对这个特定问题的快速解决方案。从所有 Google Analytics 统计数据中排除执行 js(如 phantomjs)的爬虫的最简单方法是,通过 /etc/hosts 阻止 Google Analytics 域。

127.0.0.1    www.google-analytics.com
127.0.0.1    google-analytics.com

这是防止虚假数据的最简单方法。这样,您就不必为所有客户端添加过滤器。

(感谢其他答案)


0
投票

IP过滤可能还不够,但也许可以通过用户代理字符串进行过滤(可以用phantom任意设置)?这将是过滤器中的“浏览器”字段。

© www.soinside.com 2019 - 2024. All rights reserved.