pandas read_html不等待页面加载

问题描述 投票:0回答:1

我正在尝试使用pandas read_html读取URL上的表,但是我感兴趣的表是在页面的其他部分之后加载的,所以我得到的数据框如下所示,而不是实际的内容:

ColumnA     |     ColumnB

Still loading |    Still loading

因此,有一种方法可以告诉read_html等待表完全加载,然后再读取表?

python pandas http web-crawler
1个回答
0
投票

没有特定的代码示例,我们无法确定答案,但是您应该意识到,read_html会在提供HTML的static版本时对其进行爬网;它不会等待JavaScript执行](可能是在表“加载”时您在浏览器中看到的内容),因为HTML搜寻器根本不执行JavaScript。

您还可以阅读更多有关熊猫here的常见HTML抓取技巧,尽管它们与性能更相关,而不是等待二级页面更新。

[如果您需要在爬网中合并JavaScript更新,则可能需要查看无头浏览器,例如Selenium [docs]或无头镶边[related question]。

© www.soinside.com 2019 - 2024. All rights reserved.