如何检测字符串中的笑话？

Question

我试图在字符串中检测出像“哈哈哈哈”和“洛丽奥尔”这样的笑话。

目前我正在使用以下正则表达式：

^((.*?)|)(\b[ha]|\b[lo])(.*?)$

但是，这不适用于我的目的。它有效，但它也匹配与笑声完全无关的词，例如'kill'，因为它只是寻找包含字母l，o，h，a的任何单词。

如何在字符串中检测笑话（如“hahaha”或“lololol”）？

Answer 1

尝试这种模式：

\b(?:a*(?:ha)+h?|(?:l+o+)+l+)\b

或者更好，如果你的正则表达式支持原子组和占有量词：

\b(?>a*+(?:ha)++h?|(?:l+o+)++l+)\b

Answer 2

为了简单起见，因为发布的解决方案对于你想要做的事情可能过于复杂：如果你唯一被认为是“笑话”的话是ha，haha等等和lol，lolol，lololol等，那么以下正则表达式就足够了：

\b(ha)+|l(ol)+\b

这假设一个正则表达式方言，其中\b代表一个单词边界，你似乎正在使用它。

Answer 3

\b(a*ha+h[ha]*|o?l+o+l+[ol]*)\b

火柴：

hahahah
haha
lol
loll
loool
looooool
lolololol
lolololololo
ahaha
aaaahahahahahaha

不匹配：

looo
oool
oooo
llll
ha
l
o
lo
ol
ah
aah
aha
kill
lala
haunt
hauha
louol