我正在编写代码以从docx扩展名的Word文档中提取文本。我有一个名为“ EXTRACTION”的大文件夹,此文件夹包含不同的子文件夹(例如:文件夹1,2,3等等。),每个子文件夹包含2至10个docx文档。我想从每个文件中提取文本,并将其放入新的txt文件中。
我开始编写此代码,但是它不起作用(代码的第二版):
import os
import glob
import docx
print(os.getcwd())
dirs = dirs = glob.glob('fi*')
path = os.getcwd()
for directory in dirs:
for filename in directory:
if filename.endswith(".docx") or filename.endswith(".doc"):
document = docx.Document(filename)
#docText = []
with open('your_file.txt', 'w') as f:
for paragraph in document.paragraphs:
if paragraph.text:
#docText.append(paragraph.text)
f.write("%s\n" % paragraph.text)
此代码似乎无法正常工作,您能帮我改善一下吗?>
我正在编写代码以从docx扩展名的Word文档中提取文本。我有一个名为“ EXTRACTION”的大文件夹,该文件夹包含不同的子文件夹(例如:文件夹1,2,3等等。...