我有一堆 .doc 文件(不是 .docx),我想将它们转换为 HTML 文件。
我也尝试了Python的
docx2html
模块,但它只支持.docx文件而不支持doc。
那么我怎样才能实现它呢?
我通过使用
soffice
将 LibreOffice 的 subprocess.call
调用到我的 Python 模块中解决了这个问题。使用soffice,您可以直接将doc
转换为html
。
但我必须告知,使用此解决方案,
outputfile.html
可能会丢失一些格式样式。
就我而言,它保留了字体、字体大小和运行(粗体、斜体等),这对我来说是必需的。
import subprocess
# Assuming `filename` has already been assigned for input file name
subprocess.call(['soffice', '--headless', '--convert-to', 'html', filename])
这将在同一目录中生成一个同名的 html 文档。
如果有必要,您可以继续使用一些 CSS 重新设置
.html
文件的样式。