正则表达式不跨越换行符

问题描述 投票:0回答:1

我有一个数据字符串作为另一个工作正则表达式的结果:

pattern = re.compile(r'CALL\|\d*\|.*\n*((?:\n.*)+?)(?=\nCALL|\Z)',re.MULTILINE)
matches = pattern.finditer(text)
list_dataframe = []
audit_data = []
counter = 0
for match in matches:
    while counter < 1:
        small_string = match.group(0)
        print(small_string)
        print('end small string \n')
        pattern1 = re.compile(r'BENCHMARK\|Assigned\|(?:.*)(?=\|Assigned\||\Z)',re.MULTILINE) #
        assignments_iterator = pattern1.finditer(small_string)

小字符串显示为:

CALL|2197040|77-MOTOR VEHICLE COLLISION|11/30/2022|18:22:31.0|28 ST S/I275-UNDER|439111.88686|1246532.42713|False||False|2022-11-30 18:21:24||
CUSTOM-DATA|2197040|1/1/0001 12:00:00 AM|1/1/0001 12:00:00 AM|1/1/0001 12:00:00 AM|1/1/0001 12:00:00 AM||SP3||||SP3|SP3|||||||0|0|0|0|
BENCHMARK|Assigned|E10|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|E10|1.11666666666667|2197040|TurnoutTime|Engine-ALS||
BENCHMARK|OnScene|E10|1.11666666666667|2197040|OnScene|||
BENCHMARK|UserDefCategory|E10|0|2197040|UserDefCategory|UnitType=R||
BENCHMARK|InService|E10|3.08333333333333|2197040|InService|||
BENCHMARK|Assigned|E4|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|E4|0.733333333333333|2197040|TurnoutTime|Engine-ALS||
BENCHMARK|OnScene|E4|0.733333333333333|2197040|OnScene|||
BENCHMARK|UserDefCategory|E4|0|2197040|UserDefCategory|UnitType=E||
BENCHMARK|InService|E4|4.43333333333333|2197040|InService|||
BENCHMARK|Assigned|T1|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|T1|1.31666666666667|2197040|TurnoutTime|Truck||
BENCHMARK|OnScene|T1|7.93333333333333|2197040|OnScene|||
BENCHMARK|UserDefCategory|T1|0|2197040|UserDefCategory|UnitType=T||
BENCHMARK|InService|T1|66.0333333333333|2197040|InService|||
BENCHMARK|Assigned|R3|3.71666666666667|2197040|Assigned|||

我正在尝试创建一个正则表达式编译器来捕获“BENCHMARK|Assigned”之间的数据,以便显示数据:

iter1

BENCHMARK|Assigned|E10|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|E10|1.11666666666667|2197040|TurnoutTime|Engine-ALS||
BENCHMARK|OnScene|E10|1.11666666666667|2197040|OnScene|||
BENCHMARK|UserDefCategory|E10|0|2197040|UserDefCategory|UnitType=R||
BENCHMARK|InService|E10|3.08333333333333|2197040|InService|||

iter2

BENCHMARK|Assigned|E4|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|E4|0.733333333333333|2197040|TurnoutTime|Engine-ALS||
BENCHMARK|OnScene|E4|0.733333333333333|2197040|OnScene|||
BENCHMARK|UserDefCategory|E4|0|2197040|UserDefCategory|UnitType=E||
BENCHMARK|InService|E4|4.43333333333333|2197040|InService|||
    pattern1 = re.compile(r'BENCHMARK\|Assigned\|(?:.*)(?=BENCHMARK\|Assigned\||\Z)',re.MULTILINE) 
    assignments_iterator = pattern1.finditer(small_string)

但是当我遍历时我只得到单行。我无法像我的第一个正则表达式那样越过换行符。

BENCHMARK|Assigned|E10|0|2197040
BENCHMARK|Assigned|E4|0|2197040
BENCHMARK|Assigned|T1|0|2197040
BENCHMARK|Assigned|R3|3.71666666666667|2197040
BENCHMARK|Assigned|E3|3.73333333333333|2197040
BENCHMARK|Assigned|ME3|6|2197040
python regex regex-group regex-lookarounds
1个回答
0
投票

尝试将

re.S
标志与
re.M
Regex演示)结合使用:

text = '''\
CALL|2197040|77-MOTOR VEHICLE COLLISION|11/30/2022|18:22:31.0|28 ST S/I275-UNDER|439111.88686|1246532.42713|False||False|2022-11-30 18:21:24||
CUSTOM-DATA|2197040|1/1/0001 12:00:00 AM|1/1/0001 12:00:00 AM|1/1/0001 12:00:00 AM|1/1/0001 12:00:00 AM||SP3||||SP3|SP3|||||||0|0|0|0|
BENCHMARK|Assigned|E10|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|E10|1.11666666666667|2197040|TurnoutTime|Engine-ALS||
BENCHMARK|OnScene|E10|1.11666666666667|2197040|OnScene|||
BENCHMARK|UserDefCategory|E10|0|2197040|UserDefCategory|UnitType=R||
BENCHMARK|InService|E10|3.08333333333333|2197040|InService|||
BENCHMARK|Assigned|E4|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|E4|0.733333333333333|2197040|TurnoutTime|Engine-ALS||
BENCHMARK|OnScene|E4|0.733333333333333|2197040|OnScene|||
BENCHMARK|UserDefCategory|E4|0|2197040|UserDefCategory|UnitType=E||
BENCHMARK|InService|E4|4.43333333333333|2197040|InService|||
BENCHMARK|Assigned|T1|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|T1|1.31666666666667|2197040|TurnoutTime|Truck||
BENCHMARK|OnScene|T1|7.93333333333333|2197040|OnScene|||
BENCHMARK|UserDefCategory|T1|0|2197040|UserDefCategory|UnitType=T||
BENCHMARK|InService|T1|66.0333333333333|2197040|InService|||
BENCHMARK|Assigned|R3|3.71666666666667|2197040|Assigned|||'''

import re

for group in re.findall(r'^(BENCHMARK\|Assigned.*?)\s*(?=^BENCHMARK\|Assigned|\Z)', text, flags=re.M|re.S):
    print(group)
    print('-'*80)

印花:

BENCHMARK|Assigned|E10|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|E10|1.11666666666667|2197040|TurnoutTime|Engine-ALS||
BENCHMARK|OnScene|E10|1.11666666666667|2197040|OnScene|||
BENCHMARK|UserDefCategory|E10|0|2197040|UserDefCategory|UnitType=R||
BENCHMARK|InService|E10|3.08333333333333|2197040|InService|||
--------------------------------------------------------------------------------
BENCHMARK|Assigned|E4|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|E4|0.733333333333333|2197040|TurnoutTime|Engine-ALS||
BENCHMARK|OnScene|E4|0.733333333333333|2197040|OnScene|||
BENCHMARK|UserDefCategory|E4|0|2197040|UserDefCategory|UnitType=E||
BENCHMARK|InService|E4|4.43333333333333|2197040|InService|||
--------------------------------------------------------------------------------
BENCHMARK|Assigned|T1|0|2197040|Assigned|||
BENCHMARK|TurnoutTime|T1|1.31666666666667|2197040|TurnoutTime|Truck||
BENCHMARK|OnScene|T1|7.93333333333333|2197040|OnScene|||
BENCHMARK|UserDefCategory|T1|0|2197040|UserDefCategory|UnitType=T||
BENCHMARK|InService|T1|66.0333333333333|2197040|InService|||
--------------------------------------------------------------------------------
BENCHMARK|Assigned|R3|3.71666666666667|2197040|Assigned|||
--------------------------------------------------------------------------------
© www.soinside.com 2019 - 2024. All rights reserved.