身份证明文件中的命名实体识别

问题描述投票：0回答：1

我正在尝试为驾驶执照等文件中的文本执行命名实体识别（NER）。我们从文档中提取了文本。我们的目的是找出哪些文本是姓名，地址，国家，文件编号等。

用于NER的python库NLTK和Spacy不起作用，因为没有句子来理解上下文。训练NLTK / Spacy会起作用吗？实体提取的正则表达式模式匹配有多好？

以下是提取实体的样本，

1）“乔治华盛顿” - 被确定为名称

2）“1600 Pen Avenue，Washington，D.C。20500” - 被确定为地址

以下是没有标签或部分的示例许可证，

python

entity

extraction

ner

1个回答

0
投票

我认为你不需要使用你已经拥有结构化数据的任何一个，意味着数据已被提取，名称将在名称部分，许可证号将在许可证中没有任何部分，即使你在提取名称之后有计划文本将后面跟着名字等，也许我不理解这个场景吧

选项A：如果你使用正则表达式，你肯定知道如果格式是严格的那么提取的数据是正确的那么正则表达式是好的选项，选项B：同样的事情可以用spaCy或nltk完成但是没有数据的保证它可能是正确的，这将需要大量的工作来完成它