如何识别作为光学字符识别（OCR）输出的文本中的实体？

Question

我是NLP的新手，并试图用文本数据进行多类分类。我有关于多类分类的bean阅读，但我面临的问题是我有非结构化的文本数据。我将用一个例子来解释这个问题。考虑这个图像，例如：

我想提取和分类图像中给出的文本信息。问题是当我提取信息时，OCR引擎会给出如下输出：

18
EURO 46
KEEP AWAY
FROM FIRE
MADE IN CHINA
2226249917581
7412501
DOROTHY
PERKINS

现在目标类是：

18 -> size
EURO 46 -> price
KEEP AWAY FROM FIRE -> usage_instructions
MADE IN CHINA -> manufacturing_location
2226249917581 -> product_id
7412501 -> style_id
DOROTHY PERKINS -> brand_name

我面临的问题是输入文本是不可分的，意思是“多行可以属于同一个类”，并且可能存在“单行可以有多个类”的情况。

所以我不知道如何在将线传递给分类模型之前拆分/合并线。有没有办法使用NLP我可以根据目标类拆分段落。换句话说，给定输入段落基于目标标签将其拆分。

Answer 1

如果您只考虑文本，则这是命名实体识别（NER）任务。

你能做的是train a Spacy model to NER for your particular problem。

以下是您需要做的事情：

首先收集培训文本数据列表
用相应的实体类型标记该数据
将数据拆分为训练集和测试集
使用训练集训练Spacy NER的模型
使用测试集对模型进行评分
...
利润！

见Spacy documentation on training specific NER models

祝好运！

如何识别作为光学字符识别（OCR）输出的文本中的实体？

问题描述投票：2回答：1

1个回答

最新问题

如何识别作为光学字符识别（OCR）输出的文本中的实体？

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1