如何识别作为光学字符识别(OCR)输出的文本中的实体?

问题描述 投票:2回答:1

我是NLP的新手,并试图用文本数据进行多类分类。我有关于多类分类的bean阅读,但我面临的问题是我有非结构化的文本数据。我将用一个例子来解释这个问题。考虑这个图像,例如:

example data

我想提取和分类图像中给出的文本信息。问题是当我提取信息时,OCR引擎会给出如下输出:

18
EURO 46
KEEP AWAY
FROM FIRE
MADE IN CHINA
2226249917581
7412501
DOROTHY
PERKINS

现在目标类是:

18 -> size
EURO 46 -> price
KEEP AWAY FROM FIRE -> usage_instructions
MADE IN CHINA -> manufacturing_location
2226249917581 -> product_id
7412501 -> style_id
DOROTHY PERKINS -> brand_name

我面临的问题是输入文本是不可分的,意思是“多行可以属于同一个类”,并且可能存在“单行可以有多个类”的情况。

所以我不知道如何在将线传递给分类模型之前拆分/合并线。 有没有办法使用NLP我可以根据目标类拆分段落。换句话说,给定输入段落基于目标标签将其拆分。

nlp recurrent-neural-network text-classification named-entity-recognition named-entity-extraction
1个回答
1
投票

如果您只考虑文本,则这是命名实体识别(NER)任务。

你能做的是train a Spacy model to NER for your particular problem

以下是您需要做的事情:

  1. 首先收集培训文本数据列表
  2. 用相应的实体类型标记该数据
  3. 将数据拆分为训练集和测试集
  4. 使用训练集训练Spacy NER的模型
  5. 使用测试集对模型进行评分
  6. ...
  7. 利润!

Spacy documentation on training specific NER models

祝好运!

© www.soinside.com 2019 - 2024. All rights reserved.