使用 Selenium 从网页中抓取表格数据

问题描述 投票:0回答:0

我正在使用 selenium 来抓取我必须登录到费用仪表板的费用表。该表带有适当的 & 标签,因此我正在使用 pd.read_html 。

我正在使用以下命令:

df = pd.read_html(driver.page_source)

我能够抓取数据,但我面临的问题是我得到的数据被截断了。问题是页面中的表格本身没有呈现单元格值的全文。基本上文本没有包裹在单元格中。

<span class="genericTableClass primaryTextStyle"><div data-tip="Copy to clipboard" data-class="tooltipStyleClass" currentitem="false" style="cursor: text;">HPCTU2023318141...</div></span>

这是桌子的样子。 Table

这不是一次性问题。整张桌子都是这样。谁能告诉我如何解决这个问题。

如果 pd.read_html 的任何其他替代方案可以解决这个问题,那也是欢迎的。

附言- 我是抓取的初学者。这是我在 Stackoverflow 上的第一个问题。

html pandas selenium-webdriver web-scraping html-parsing
© www.soinside.com 2019 - 2024. All rights reserved.