如何将扫描的 PDF 转换为 DOCX

嘿，我遇到了一个问题。我想将扫描的 PDF 转换为 docx 文档，同时保留格式。如何以保留扫描 PDF 中的图表和表格的方式解析布局解析器。

我尝试通过 pytesseract 图像转换为 hocr，但它不处理图像。而且文本输出也很烦人。

0
投票

创建 Adobe Acrobat 的免费试用帐户。您必须在 Adobe Acrobat 中打开 PDF。转到“文件”，选择“另存为其他”，然后选择“Microsoft Word”和“Word 文档”。然后选择名称以及保存 Word 文档的位置。