我有一个低质量的英文 PDF 文件,没有图像,没有表格,单列,完全黑白 - 甚至没有灰色。我使用了 ABBYY FineReader,它很好地检测到了文本,我可以在其中进行搜索。
但我需要真正的质量才能打印它。就像矢量图像一样。我应该使用什么软件?
将图像反转为文本是一项艰巨的编程挑战。首先,您需要确保图像适合 OCR,这可能涉及多个图形库来增强倾斜或对比度差的图像。
然后任何 OCR 通常都可以,但它们是“基于单词”的,因此需要定义的语言词典将墨迹形状转换为字母,然后将这些字母转换为单词。
然后您需要将字母形状编辑为恒定的位置和高度(如中间图像,这可能是劳动密集型的)。
最后删除图像只需一行命令。