网站多层的网页抓取

问题描述 投票:0回答:1

我有一个关于网站多层网络抓取的问题。例如,我有一个关于美国选举的网站,有 2 层。

第一层:状态信息:包含50个状态。

一旦我点击表格上的每个状态,我就会跳到第 2 层。

第2层:各州城市信息

一旦我点击表格上的每个城市,我就会得到市长选举结果。

我的目的是抓取所有市长选举数据。您对如何用 Python 抓取这个多层网页有什么建议吗?

抓取多层网页的在线资源有限。如果您可以提供任何代码示例,非常感谢!

我的预期输出:

|城市 |名称 |票数 | -------- | -------- |---------------- | A市|汤姆| X | B市|杰瑞| y …………

python web screen-scraping
1个回答
0
投票

对于多层网页抓取,您可以使用Python中的BeautifulSoup和Selenium等库。首先抓取第一层(状态信息)并收集每个状态的链接。然后,迭代这些州链接以抓取第二层(城市信息),您将在其中收集每个城市市长选举结果的链接。最后,导航到每个城市链接以抓取市长选举数据。您可能需要在 Selenium 中管理页面加载的等待,特别是在存在动态内容的情况下。不幸的是,如果没有更多细节,我无法提供确切的代码,但这个策略应该可以帮助您入门!

© www.soinside.com 2019 - 2024. All rights reserved.