如何使用机器人保护(Distil Networks)抓取Crunchbase?

问题描述 投票:3回答:1

像Crunchbase和Glassdoor这样的网站都受到Distil Networks的保护,有没有办法以编程方式从这些网站获取数据?我正在尝试Scrapy + Splash,但不知怎的,他们能够检测到这一点。有没有其他方法可以使您的请求/ javascript验证与浏览器无法区分?

web-crawler scraper
1个回答
3
投票

好吧,这可能不是非常正确的答案,也有点迟了,但尝试只跟踪fiddler(我最喜欢的)浏览器,并检查网址,标题,带有蒸馏标签,标题,饼干的饼干..你会看到。 js请求查询参数PID = .....

例如:enter image description here黄色的collored请求是我得到的一部分,当在fiddler中搜索“distil”时..接下来,首先请求你看到“/trsnsvdstl-ce.js”如果你检查源代码,你会好的那个长PID = ...数字和X-Distil-Ajax标头,你也可以在respinse中看到很多cookies containsint D_XXX =我认为最重要的是,你可以看到参数p =如果你发出相同的请求,然后UrlDecode p,你会发现它很有趣,它有很多你的机器参数,比如你在浏览器中使用的工具,分辨率等等。它是指纹..

好吧,在这一点上,我不能回答更多,只是开始深入研究这个问题。此外,有什么帮助很多,但花钱是好的代理人,我不是在谈论自由,缓慢的,我在谈论像亚马逊云,你可以设置一个接近程度的东西,所以即使蒸馏也看不到,如果它是代理人。

所以,现在就是这样,抱歉我的英语和祝你好运! :)

© www.soinside.com 2019 - 2024. All rights reserved.