如何从不同文件夹中的docx文件中提取文本

问题描述 投票:0回答:2

我正在编写代码以从docx扩展名的Word文档中提取文本。我有一个名为“ EXTRACTION”的大文件夹,此文件夹包含不同的子文件夹(例如:文件夹1,2,3等等。),每个子文件夹包含2至10个docx文档。我想从每个文件中提取文本,并将其放入新的txt文件中。

我开始编写此代码,但是它不起作用(代码的第二版):

import os
import glob
import docx



print(os.getcwd())

dirs = dirs = glob.glob('fi*')
path = os.getcwd()

for directory in dirs:
    for filename in directory:
        if filename.endswith(".docx") or filename.endswith(".doc"):
            document = docx.Document(filename)
            #docText = []
            with open('your_file.txt', 'w') as f:
                for paragraph in document.paragraphs:
                    if paragraph.text:
                        #docText.append(paragraph.text)
                        f.write("%s\n" % paragraph.text)

此代码似乎无法正常工作,您能帮我改善一下吗?>

enter image description here

enter image description here

我正在编写代码以从docx扩展名的Word文档中提取文本。我有一个名为“ EXTRACTION”的大文件夹,该文件夹包含不同的子文件夹(例如:文件夹1,2,3等等。...

python list loops python-docx data-extraction
2个回答
2
投票

enter image description here在您的代码中,directory只是一个字符串;因此for filename in directory只是循环遍历fichier


0
投票

您可以使用glob.glob从子目录中获取所有文件的列表

© www.soinside.com 2019 - 2024. All rights reserved.