将数据从HTML导出到Excel

问题描述 投票:0回答:1

我刚刚开始编程。我的任务是将数据从HTML页面提取到Excel。使用Python 3.7。我的问题是,我有一个网站,里面有更多网址。在这些网址之后,又有更多网址。我需要第三个网址后面的数据。我的第一个问题是,如何指示程序仅从ul中选择特定链接,而不是页面上的每个ul?

from bs4 import BeautifulSoup
import urllib
import requests

page = urllib.request.urlopen("file").read()

soup = BeautifulSoup(page, "html.parser")
print(soup.prettify())


for link in soup.find_all("a"):
    print(link.get("href"))

print(soup.get_text())
python html python-3.x html-lists
1个回答
0
投票

[有很多方法,一种是使用“ find_all”并像您一样尝试在诸如“ a”之类的标签上进行具体说明。如果那是唯一的选择,则在输出中使用正则表达式。您可以参考以下线程:Python BeautifulSoup Extract specific URLs。另外,请向我们显示您要提取的链接的链接或html结构。我们希望看到URL之间的差异。

PS:抱歉,由于<50的声誉我无法发表评论,否则我会发表评论。

© www.soinside.com 2019 - 2024. All rights reserved.