嘿,我遇到了一个问题。我想将扫描的 PDF 转换为 docx 文档,同时保留格式。 如何以保留扫描 PDF 中的图表和表格的方式解析布局解析器。
我尝试通过 pytesseract 图像转换为 hocr,但它不处理图像。而且文本输出也很烦人。
创建 Adobe Acrobat 的免费试用帐户。 您必须在 Adobe Acrobat 中打开 PDF。 转到“文件”,选择“另存为其他”,然后选择“Microsoft Word”和“Word 文档”。 然后选择名称以及保存 Word 文档的位置。