Python Regex:数据抓取 data data [ ] >> 我有一个HTML文件,我用Python阅读,我想在打印时自定义它。 首先我要打印国家/地区名称,然后打印球员所属国家/地区的名称。 我的HTML文件如下: <ul> <li> Australia <ol> <li>Steve Smith</li> <li>David Warner</li> <li>Aaron Finch</li> </ol> </li> <li> Bangladesh <ol> <li>Shakib Al Hasan</li> <li>Tamim Iqbal</li> <li>Mushfiqur Rahim</li> </ol> </li> <li> England <ol> <li>Ben Stokes</li> <li>Joe Root</li> <li>Eoin Morgan</li> </ol> </li> 现在我想从我的HTML文件中抓取这些数据: Australia - Steve Smith, David Warner, Aaron Finch Bangladesh - Shakib Al Hasan, Tamim Iqbal, Mushfiqur Rahim England - Ben Stokes, Joe Root, Eoin Morgan 但是我只能用玩家的名字来抓取。这是我的代码: import re file_name = "team.html" mode = "r" with open(file_name, mode) as fp: team = fp.read() pat = re.compile(r'<li>(.*?)</li>') result = pat.findall(team) res = ", ".join([str(player) for player in result]) print(res) 而且,我不使用bs4之类的任何软件包。我想通过使用正则表达式解决此问题。 我有一个HTML文件,我用Python阅读,我想在打印时自定义它。首先,我要打印国家/地区名称,然后是玩家所属国家/地区的名称。我的HTML文件...

问题描述 投票:-1回答:3

我有一个HTML文件,我用Python阅读,我想在打印时自定义它。

python html regex web-scraping
3个回答
1
投票

这里是使用正则表达式的解决方案。


0
投票

已经建议,BeautifulSoup是完成此任务的正确工具:


0
投票

在这种情况下使用正则表达式可能是一个错误。 (我不是100%sur)。您应该使用Beautiful Soup

© www.soinside.com 2019 - 2024. All rights reserved.