我们可以使用CNN / LSTM在图像中找到所需的字符串吗？或者我们是否需要在使用CNN / LSTM提取文本后应用NLP。请有人澄清一下吗？

我在图像上构建解析器算法。 tesseract没有给出准确性。所以我想构建一个基于CNN + LSTM的模型进行图像到文本的转换。我的方法是正确的吗？我们可以直接从CNN_LSTM模型而不是NLP中提取所需的字符串吗？或者你看到其他任何方法来提高tesseract的准确性？

deep-learning lstm python-tesseract pytesseract

0
投票

NLP用于允许网络尝试“理解”文本。我想你想要的是看图片是否包含文字。为此，不需要NLP，因为您没有尝试让网络分析或理解文本。相反，这应该更多的是对象检测类型问题。

有许多模型可以进行物体检测。我的头脑中有一些是YOLO，R-CNN和Mask R-CNN。