我想从图像中提取文本。图像可能有很多文字和/或背景图像,模型可能会将其他东西误认为是主要主题。
例如,我有一个化妆品盒的图像,上面有说明(很多字)、一个标志和一个批号。我重点是获取批次代码,但模型可能已经提取了标志作为主体。
以下是提取的可能性:
某些单词/短语,例如“Use by”或“Manufactured”。
日期
标志
我研究过 CNN 和 OCR 等模型。但是,我不确定这是否是正确的方法,因为我是 CNN 和 OCR 的新手,即使这是正确的方法,我们如何确保我们提取正确的文本,假设我有数千张图像并且没有'分成训练集和测试集?