我想用Regex来提取从年和到年的数据,但由于格式不同,无法提取,如下图所示。([0-9]+)-?([0-9a-z]+)
以下是需要提取的完整数据。
['165-180 A.D.',
'1520-unknown',
'1665',
'1817-1923',
'Late 1800s',
'1918-1920',
'1957-1958',
'2009']
上面的regex提取了165,1520。166 在第1组和2019年,未知。5 需要在第2组中把1665填入第1组,在第2组中的regex中填入空白字段。
wp_page = requests.get("https://www.washingtonpost.com/graphics/2020/local/retropolis/coronavirus-deadliest-pandemics/")
wp_soup = bs(wp_page.content, 'html.parser')
[names.get_text() for names in wp_soup.find_all('h5')][0:-2]
wp_year_from_list=[]
wp_year_to_list=[]
wp_year_regex=re.compile('([0-9]+)-?([0-9a-z]+)')
for names in wp_soup.find_all('h5'):
if (wp_year_regex.search(names.text)!= None):
wp_year_from_list.append(wp_year_regex.search(names.text).group(1))
wp_year_to_list.append(wp_year_regex.search(names.text).group(2))```
根据你的要求,你需要添加 ?
第二组的量化符。因此,你的regex将看起来像这样。
([0-9]+)-?([0-9a-z]+)?
^^
上面的regex的解释:
([0-9]+)
- 捕捉组:捕捉1次或多次的数字。
-?
- 匹配一个连字符字面0或1次。
([0-9a-z]+)?
- 第二个捕获组捕获数字和字母1次或多次,该组可以出现0次或1次。
你可以在下面的示例中找到上述的regex。这里。
使用 *
在第二组中得到您所需的结果。
([0-9]+)-?([0-9a-z]+)*
^^