将数据从HTML导出到Excel

Question

我刚刚开始编程。我的任务是将数据从HTML页面提取到Excel。使用Python 3.7。我的问题是，我有一个网站，里面有更多网址。在这些网址之后，又有更多网址。我需要第三个网址后面的数据。我的第一个问题是，如何指示程序仅从ul中选择特定链接，而不是页面上的每个ul？

from bs4 import BeautifulSoup
import urllib
import requests

page = urllib.request.urlopen("file").read()

soup = BeautifulSoup(page, "html.parser")
print(soup.prettify())


for link in soup.find_all("a"):
    print(link.get("href"))

print(soup.get_text())

Answer 1

[有很多方法，一种是使用“ find_all”并像您一样尝试在诸如“ a”之类的标签上进行具体说明。如果那是唯一的选择，则在输出中使用正则表达式。您可以参考以下线程：Python BeautifulSoup Extract specific URLs。另外，请向我们显示您要提取的链接的链接或html结构。我们希望看到URL之间的差异。

PS：抱歉，由于<50的声誉我无法发表评论，否则我会发表评论。

将数据从HTML导出到Excel

问题描述投票：0回答：1

1个回答

最新问题

将数据从HTML导出到Excel

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1