OCR:如何从文档图像中提取特定名称?

问题描述 投票:-1回答:1

我正在尝试从文档中提取名称。我可以用pytesseract轻松获得文本。我的问题是如何从该文本中获取某些名称。这是我的烦恼清单-

  • 文档图像可以是任意页数。
  • 我需要的名字可以在任何这些页面中。
  • [仅浏览其中一些图像后,我所知道的唯一模式是:无论我需要的名称出现在什么地方,它周围都会有一个关键字-例如“ Borrower。”或“ Owner。”

[目前,我唯一的解决方案是在这些关键字出现在文本之前和之后的几行中运行某种“人名识别”算法。

但是这似乎是解决此问题的非常低效的方法。例如,外来名称的拼写方式可能会使命名实体识别器无法正常工作。我觉得我需要训练某种寻找特定模式的神经网络。我不懂机器学习,但我总是愿意学习。任何想法的好坏,都受到高度赞赏。

python machine-learning computer-vision ocr python-tesseract
1个回答
0
投票

取决于您要提取的名称。如果您想识别英文或中文名称,Spacy会很好地识别它们。如果要识别英语名称以外的其他名称,则需要训练NER模型以识别它们。

训练模型以识别实体。请按照以下步骤操作。

1。数据获取-确保使用您尝试识别的实体。

2。数据注释-您需要将名称注释(标签)为PERSON,以训练并将这些单词识别为名称。

3。数据准备-以要馈入的格式准备数据训练模型。训练和测试您的模型。

您可以点击下面的链接获取更多详细信息。

https://nlp.stanford.edu/software/crf-faq.shtml#a

用于名称数据集https://archive.org/details/academictorrents_e54c73099d291605e7579b90838c2cd86a8e9575

© www.soinside.com 2019 - 2024. All rights reserved.