这种模式:
/a+?b+?/
对于以下字符串:
aaaaaabbbbbb
火柴:
aaaaaab
我们看到非贪婪在向后/向左方向(全部采用)和向前/向右方向(仅采用一个)方面表现不同。
有没有办法让开头的非贪婪,匹配所有的a
,以尽可能少的匹配?所以它的行为方式与最后的b
部分相同?
正则表达式通常从左到右匹配,除非您设置从右到左的标志(支持非常少的风格)。在任何一种情况下,它们都不会从中间开始,然后在两个方向上都能完成,即使你使用了后视镜。
它有助于停止并询问 - 为什么懒惰量词首先存在?它有什么问题需要解决?
正常(贪婪)量词通过找到匹配的文本模式然后重复匹配一系列字符直到它们不再匹配来工作。通常需要此行为,但是如果您具有非常通用的模式,然后是特定模式,其中特定模式是常规模式的子集,则会遇到问题。
例如,请考虑以下输入:
_abc_END_def_END
这种模式:
(\w+END)(\w+END)?
很容易假设的目的是匹配_abc_
然后END
,然后是_def_
然后是END
。此表达式似乎允许输入第二组字符是可选的。
问题是END
是\w+
的一个子集,所以第二组实际上由\w+
“消耗”,导致_abc_END_def_
匹配,其次是END
。这不是理想的行为。
此场景的解决方案是使用延迟修饰符更改量词的行为方式。这使得END
模式有机会与每个角色匹配,并且只允许\w+
在END
失败时使用另一个角色。
延迟量词的目的不是匹配“最小”字符数 - 它是关于给第二个模式(第一个模式的一个子集)提供匹配的机会。
在您的示例中,b
不是a
的子集,因此不需要延迟量词。如果你想匹配一个或多个a,但尽可能少,一个或多个b,但尽可能少,那么你只需使用:
ab
或者,如果你的a
是一些超集的替身,可能包括b:
[ab]b
例如:
\wb
两者都匹配:
ab
他们的行为一样!一个懒惰的量词(在这种情况下是一个懒惰的+
)告诉正则表达式引擎
+
的情况下)正如您所暗示的那样,正则表达式与“向左”或“向后”不匹配。
你到底想要达到什么目的?我想这不是一个简单的例子 - 修复是很容易的(只需要制作正则表达式ab
,这可能不是你想要的)。
如果您不必执行前面提到的右到左匹配,那么您可以简单地反转字符串,反转正则表达式,然后在结尾处反转结果。
工作如下:
Start with aaaaaabbbbbb
Reverse to bbbbbbaaaaaa
Reverse /a+?b+?/ to /b+?a+?/
The resulting Match is bbbbbba
Reverse the resulting match to get abbbbbb
在贪婪的非捕获组之前:
/(?:a)*a+?b+?/