我正在尝试解析和匹配大量的法律文本,将其全部分解为单个句子。我有以下正则表达式,只适用于几行简单文本就好了:
[^\.\!\?\;\n]*[\.\!\?\;\n](\s+)
!和?或者相当不光彩。和;因为分隔符在我正在尝试使用的文本中很常见。问题是上面的正则表达式只是找到那些后跟空格字符的分隔符。例如,以下文本未正确匹配:
成员国法律或根据与卫生专业人员签订的合同,并受第3款所述的条件和保障措施的约束;为了公共卫生领域的公共利益,加工是必要的,例如防止严重的跨境健康威胁或确保https://ec.europa.eu/ploteus/en/compare的高标准比较工具采用7个可比较的程序(例如认证/审核),并按要求注册会员国。根据联盟或成员国法律提供的医疗保健和医药产品或医疗器械的质量和安全,该法律规定了适当和具体的措施,以保护数据主体的权利和自由,特别是专业保密;处理是......
以下整节:
由于公共卫生领域的公共利益,例如防止严重的跨境健康威胁或确保https://ec.europa的高标准比较工具,处理是必要的。
根本不匹配。
任何帮助改善上述正则表达式将不胜感激!
谢谢
我想你想要的是一个句子标记器。对于Go,我可以推荐一个库:github.com/jdkato/prose,它应该像魅力一样完成工作。
就个人而言,我从未使用过。祝好运!