Python Regex:数据抓取
data
data [
] >>
我有一个HTML文件,我用Python阅读,我想在打印时自定义它。
首先我要打印国家/地区名称,然后打印球员所属国家/地区的名称。
我的HTML文件如下:
<ul> <li> Australia <ol> <li>Steve Smith</li> <li>David Warner</li> <li>Aaron Finch</li> </ol> </li> <li> Bangladesh <ol> <li>Shakib Al Hasan</li> <li>Tamim Iqbal</li> <li>Mushfiqur Rahim</li> </ol> </li> <li> England <ol> <li>Ben Stokes</li> <li>Joe Root</li> <li>Eoin Morgan</li> </ol> </li>
现在我想从我的HTML文件中抓取这些数据:
Australia - Steve Smith, David Warner, Aaron Finch Bangladesh - Shakib Al Hasan, Tamim Iqbal, Mushfiqur Rahim England - Ben Stokes, Joe Root, Eoin Morgan
但是我只能用玩家的名字来抓取。这是我的代码:
import re file_name = "team.html" mode = "r" with open(file_name, mode) as fp: team = fp.read() pat = re.compile(r'<li>(.*?)</li>') result = pat.findall(team) res = ", ".join([str(player) for player in result]) print(res)
而且,我不使用bs4之类的任何软件包。我想通过使用正则表达式解决此问题。
我有一个HTML文件,我用Python阅读,我想在打印时自定义它。首先,我要打印国家/地区名称,然后是玩家所属国家/地区的名称。我的HTML文件...