如何从DOC（不是DOCX）获取XML？

问题描述投票：0回答：1

对于DOCX文档，我这样做：

document = zipfile.ZipFile(path)
soup = BeautifulSoup(document.read('word/document.xml'), 'html.parser')

如何对DOC文档执行此操作？

python xml ms-word docx doc

1个回答

0
投票

您不。

DOCX足够强大，难以处理，它们基于XML，并由国际标准组织进行了文档记录。 DOC文件是二进制文件和专有文件。

请勿尝试直接处理DOC文件。 首先将它们转换为DOCX。

See：

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.