网站多层的网页抓取

网站多层的网页抓取

问题描述投票：0回答：1

我有一个关于网站多层网络抓取的问题。例如，我有一个关于美国选举的网站，有 2 层。

第一层：状态信息：包含50个状态。

一旦我点击表格上的每个状态，我就会跳到第 2 层。

第2层：各州城市信息

一旦我点击表格上的每个城市，我就会得到市长选举结果。

我的目的是抓取所有市长选举数据。您对如何用 Python 抓取这个多层网页有什么建议吗？

抓取多层网页的在线资源有限。如果您可以提供任何代码示例，非常感谢！

我的预期输出：

|城市 |名称 |票数 | -------- | -------- |---------------- | A市|汤姆| X | B市|杰瑞| y …………

python

web

screen-scraping

1个回答

0
投票

对于多层网页抓取，您可以使用Python中的BeautifulSoup和Selenium等库。首先抓取第一层（状态信息）并收集每个状态的链接。然后，迭代这些州链接以抓取第二层（城市信息），您将在其中收集每个城市市长选举结果的链接。最后，导航到每个城市链接以抓取市长选举数据。您可能需要在 Selenium 中管理页面加载的等待，特别是在存在动态内容的情况下。不幸的是，如果没有更多细节，我无法提供确切的代码，但这个策略应该可以帮助您入门！

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1