尽管我对正则表达式进行了一些搜索,但是对于句子标记生成器,我仍然无法完全理解上述正则表达式。似乎定义了一个以不同符号结尾的句子结构(例如.
,?
等),但我仍然对其他部分感到困惑。
正则表达式在许多情况下都使用特殊字符。
*
与前面的元素匹配零次或多次。例如,ab c匹配“ ac”,“ abc”,“ abbbc”等。[xyz]匹配“”,“ x”,“ y”,“ z”,“ zx”,“ zyx” ,“ xyzzy”等。 (ab)*匹配“”,“ ab”,“ abab”,“ ababab”等。
?
问号表示零次或一次出现前一个元素。例如,colou?r匹配“ color”和“ color”“颜色”。