我正在编辑一个大型词典文件,术语和定义对的格式不一致。有些单词很“简单”,有些单词包含基本术语加上一些后缀来改变性别等内容,基本上将两个术语堆叠到一个条目中:
abacora (definition)
abacorar (definition)
abad, desa (definition)
最后一个术语的意思是“abad”和“abadesa”(女性变体)。
我一直在尝试编写正则表达式来捕捉这种“特殊性”,但我似乎无法使其发挥作用。这与术语的第一部分很好匹配,但无法捕获第二部分:
^[^\s(?<!,)]+
它应该返回:
"abacora"
"abacorar"
"abad, desa"
我将使用以下模式,它应该捕获所有可能包括 CSV 列表的前导词:
^\w+(?:,\s*\w+)*