如何从不同文件夹中的docx文件中提取文本

Question

我正在编写代码以从docx扩展名的Word文档中提取文本。我有一个名为“ EXTRACTION”的大文件夹，此文件夹包含不同的子文件夹（例如：文件夹1，2，3等等。），每个子文件夹包含2至10个docx文档。我想从每个文件中提取文本，并将其放入新的txt文件中。

我开始编写此代码，但是它不起作用（代码的第二版）：

import os
import glob
import docx



print(os.getcwd())

dirs = dirs = glob.glob('fi*')
path = os.getcwd()

for directory in dirs:
    for filename in directory:
        if filename.endswith(".docx") or filename.endswith(".doc"):
            document = docx.Document(filename)
            #docText = []
            with open('your_file.txt', 'w') as f:
                for paragraph in document.paragraphs:
                    if paragraph.text:
                        #docText.append(paragraph.text)
                        f.write("%s\n" % paragraph.text)

此代码似乎无法正常工作，您能帮我改善一下吗？>

我正在编写代码以从docx扩展名的Word文档中提取文本。我有一个名为“ EXTRACTION”的大文件夹，该文件夹包含不同的子文件夹（例如：文件夹1，2，3等等。...

Answer 1

在您的代码中，directory只是一个字符串；因此for filename in directory只是循环遍历f，i，c，h，i，e，r等

Answer 2

您可以使用glob.glob从子目录中获取所有文件的列表

如何从不同文件夹中的docx文件中提取文本

问题描述投票：0回答：2

2个回答

最新问题

如何从不同文件夹中的docx文件中提取文本

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2