Python 废弃网站,但第一次渲染后会出现一些 HTML

问题描述 投票:0回答:1

我正在尝试使用Python获取网站的代码。问题是,当我尝试使用 cloudscraper 创建 GET 请求时,它返回以 HTML 生成的即时代码。

在这个网站上,页面渲染后会出现一些代码。我怎样才能让抓取器在页面打开几秒钟后返回代码?

这是我的代码:

  scraper = cloudscraper.create_scraper()  
        content = scraper.get("link").text

我已经尝试在 create_scrapper 中添加延迟,但它似乎不起作用。 谢谢您的帮助!

python web-scraping scrapy scrapyd
1个回答
0
投票

我对cloudscraper不熟悉,它似乎是专门为了绕过Cloudflares反机器人页面,你是因为这个原因选择这个包的吗?

如果没有,您检查过这些线程吗?两者都提出了 Selenium,这是一个浏览器自动化工具。

在抓取之前等待页面加载

在 python 3 中使用 requests.get 获取数据之前等待页面加载

© www.soinside.com 2019 - 2024. All rights reserved.