OCR 不再是问题了吗？

根据维基百科，“对于可提供清晰成像的应用程序（例如扫描印刷文档），拉丁文字、打字文本的准确识别现在被认为在很大程度上已解决。”但是，它没有给出任何引用。

我的问题是：这是真的吗？目前最先进的技术是否已经足够好，以至于 - 对于良好的英文文本扫描 - 没有任何重大改进需要进行？

或者，这个问题的一种不太主观的形式是：现代 OCR 系统在识别英文文本以获得高质量扫描方面的准确度如何？

5
投票

我认为这确实是一个已解决的问题。只需查看大量有关 C#、C++、Java 等的 OCR 技术文章即可。

当然文章确实强调剧本需要打字并且清晰。这使得识别成为一项相对简单的任务，而如果您需要 OCR 扫描页面（噪声）或手写体（扩散），则可能会变得更加棘手，因为有更多的东西需要正确调整。

3
投票

狭隘地认为将足够高质量的 2d 位图分解为矩形，每个矩形包含一组行为良好的预先指定字体（参见 Omnifont）中的一个的已识别拉丁字符，这是一个已解决的问题。

开始使用这些参数，例如，古怪的未知字体、嘈杂的扫描、亚洲字符，它开始变得有些不稳定或需要额外的输入。许多著名的 Ominfont 系统不能很好地处理连字。

OCR 的主要问题是理解输出结果。如果这是一个已解决的问题，Google 图书将给出完美的结果。

0
投票

令我惊讶的是，这个问题还没有因为需要意见而被关闭，但我认为这是一个重要的问题，我很高兴它没有被关闭。我可以实事求是地说，在过去的两年里，我使用超过一千张机器准备的发票和收据样本（没有手写或不寻常的字体）测试了我能找到的所有基于云的商业 OCR 服务。我对这些产品的准确性评价为零，因为没有任何服务能够正确获取文档上的日期、供应商、小计、税费和总额。在特殊情况下，少数人可能会得到 5 分中的 4 分，但没有人能得到 5 分中的 5 分。他们无法接近获得 OCR 在会计环境中可行所必需的行项目。所有供应商都声称使用人工智能来提高准确性，大多数供应商都要求我在发布文档时选择“收据”或“发票”等模型。我可以提出的支持解决 OCR 问题的唯一评论是，我的银行会扫描我存入的每张支票，无论是手写的还是机器准备的。它将金额的书面文字与数字进行比较，并提示我确认支票的金额。到目前为止，他们还没有弄错，但他们有文字和数字可供比较。当对大多数文档进行 OCR 时，我们没有那么奢侈。我测试的大多数服务都不会响应查询，但有一个服务表示我的结果是典型的，并且每月最低费用为 1,000 美元，他们将通过人工视觉验证我提交的每一份 ORed 文件。对我来说，这几乎证实了截至 2024 年春季，OCR 尚未得到解决。如果有人可以向我指出任何可以使文档中的每个单词都正确的服务或软件（无论是商业的还是开源的），即使是 50% 的情况下，我也很想知道它。我对那些声称他们的解决方案能够正确识别文档中 98% 的字符的人不感兴趣。在会计情况下将 0 与 8 混淆 1) 如果它出现在发票上并且您多付了费用，则会变得昂贵 2) 在其他情况下会使您的账簿失去平衡，与人工输入相比，需要更多的时间来查找错误数据一开始就正确。这是我最后的观点，但我保证，我从事实开始。

问题描述投票：0回答：3

3个回答

最新问题

OCR 不再是问题了吗？

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3