OCR 场景文本图像超分辨率

我正在开发 OCR 系统。我在识别ROI中的文本时面临的挑战是由于抖动或运动效果镜头或由于角度位置而导致不聚焦的文本。请考虑以下演示示例

如果您注意到文本（例如标记为红色），在这种情况下 OCR 系统无法正确识别该文本。然而，这种情况也可能在无角度拍摄的情况下发生，即图像太模糊，以至于 OCR 系统无法识别或部分识别文本。有时它们模糊或有时非常低分辨率或像素化。例如

我们尝试过的方法

首先我们尝试了SO上可用的各种方法。但遗憾的是没有运气。

接下来，我们尝试了以下三种最有前途的方法。

1.TSRN

最近的一项研究工作（TSRN）主要关注此类案例。它的主要直观之处是引入超分辨率（SR）技术作为预处理。这个实现看起来是迄今为止最有希望的。然而，它无法对我们的自定义数据集发挥作用（例如上面的第二张图片，蓝色文本）。以下是他们演示中的一些示例：

2。神经增强

在查看了其页面上的插图后，我们相信它可能会起作用。但遗憾的是它也无法解决问题。然而，即使他们展示的例子我也有点困惑，因为我也无法重现它们。我在 github 上提出了一个问题，我在其中更详细地演示了这一点。以下是他们演示中的一些示例：

3.情报监视与侦察

通过this实现的最后选择。也没有运气。

更新1

[方法]：除了上述方法之外，我们还尝试了一些传统方法，例如离焦去模糊滤波器（维纳滤波器和无监督维纳滤波器）。我们还检查了 Richardson-Lucy 方法。但这种方法也没有改善。
[方法]：我们已经检查了基于 GAN 的 DeBlur 解决方案。 DeblurGAN 我已经尝试过这个网络。吸引我的是盲运动去模糊机制的方法。

最后，从这个讨论我们遇到了这项研究工作，它看起来确实足够好。还没试过这个。

更新2

[方法]：通过内核估计和噪声注入实现现实世界超分辨率 尝试过这个方法。有希望。然而，在我们的例子中不起作用。代码。
【方法】：照片修复 与上述所有方法相比，它在 OCR 的超文本分辨率方面表现最好。它极大地去除了噪声、模糊等，使图像更加清晰，从而更好地增强了模型的泛化能力。代码。

我的询问

有没有有效的解决方法来处理此类情况？有什么方法可以改善这种“模糊”或“低分辨率”像素，无论文本是由于相机角度而“在前面”还是“很远”？目前，有一种解决方案通过内核估计和噪声注入实现真实世界超分辨率。作者提出了一个退化框架RealSR，为超分辨率学习提供逼真的图像。这是一种很有前途的抖动或运动效果图像超分辨率方法。该方法分为两个阶段。第一阶段

超分辨率的真实退化

1
投票

是根据真实数据估计退化并实际生成 LR 图像。

第二阶段超分辨率模型

就是根据构建的数据来训练SR模型。

可以看这篇Github文章：https://github.com/jixiaozhong/RealSR

我也一直在研究这个超分辨率领域，并发现了一些有希望的结果，但尚未尝试，

第一篇论文

（车牌基础文本）他们首先实现图像增强，然后在后期进行超分辨率。第二篇论文和

github

0
投票

我也有同样的兴趣。除了照片修复之外，您最终找到合适的方法了吗？哪个效果最好？

问题描述投票：0回答：2

我们尝试过的方法

更新1

更新2

我的询问

2个回答

最新问题

OCR 场景文本图像超分辨率

问题描述 投票：0回答：2

我们尝试过的方法

更新1

更新2

我的询问

2个回答

最新问题

问题描述投票：0回答：2