如何将 .doc 文件转换为 HTML?

问题描述 投票:0回答:1

我有一堆 .doc 文件(不是 .docx),我想将它们转换为 HTML 文件。

我也尝试了Python的

docx2html
模块,但它只支持.docx文件而不支持doc。

那么我怎样才能实现它呢?

python doc
1个回答
0
投票

我通过使用

soffice
将 LibreOffice 的
subprocess.call
调用到我的 Python 模块中解决了这个问题。使用soffice,您可以直接将
doc
转换为
html

但我必须告知,使用此解决方案,

outputfile.html
可能会丢失一些格式样式。 就我而言,它保留了字体、字体大小和运行(粗体、斜体等),这对我来说是必需的。

import subprocess

# Assuming `filename` has already been assigned for input file name
subprocess.call(['soffice', '--headless', '--convert-to', 'html', filename])

这将在同一目录中生成一个同名的 html 文档。

如果有必要,您可以继续使用一些 CSS 重新设置

.html
文件的样式。

© www.soinside.com 2019 - 2024. All rights reserved.