从python中的单词文件读取

问题描述 投票:-1回答:2

我如何从python中的word(docx)文件读取。我可以读取txt文件,但不能对MS Office Word文档进行相同的操作。有什么建议吗?

python docx readlines
2个回答
1
投票

有几个软件包可让您执行此操作。检查

  1. python-docx

  2. docx2txt(请注意,它似乎不适用于.doc)。根据this,它似乎比python-docx获得更多信息。从原始文档:

import docx2txt

# extract text
text = docx2txt.process("file.docx")

# extract text and write images in /tmp/img_dir
text = docx2txt.process("file.docx", "/tmp/img_dir") 
  1. textract(通过docx2txt起作用。)。

  2. 由于.docx文件只是扩展名已更改的.zip文件,因此this显示了如何访问内容。这与.doc文件存在显着差异,也是上述某些(或全部)不适用于.doc的原因。在这种情况下,您可能必须先转换doc-> docxantiword是一个选项。


1
投票

请参阅此允许读取docx文件的库https://python-docx.readthedocs.io/en/latest/

您应该使用PyPi上可用的python-docx库。然后您可以使用以下]

doc = docx.Document('myfile.docx')
allText = []
for docpara in doc.paragraphs:
    allText.append(docpara.text)
    
© www.soinside.com 2019 - 2024. All rights reserved.