从zip文件夹中的所有“ .txt”和“ .docx”文件中删除标点符号和停用词

问题描述 投票:0回答:1

实际上我在file_list中有八个“ .txt”文件和两个“ .docx”文件。我的任务是从文件列表中的所有文件中消除所有停用词和标点符号。我只是提供了我遇到错误的部分代码。有人可以指导我如何从所有文件类型中消除停用词和标点符号吗?我尝试了以下代码,但无法成功执行。我也在这里提供文件夹。file_list。另外,当我运行以下代码时,.docx文件遇到UTF-8错误。

from string import punctuation

for each_file in range(1, len(file_list)):
    print("Current working filename is:",file_list[each_file],end="\n") 
    with open(file_list[each_file],'r',encoding='utf-8') as file:
        without_punct = [char for char in file.readlines() if char not in punctuation]
    print(without_punct)
python-3.x string nltk glob file-handling
1个回答
0
投票

您会收到.docx文件的编码错误,因为.docx文件不是标准的文本文件,这意味着它具有自己的格式。 Python本机支持读取纯文本文件,这就是为什么它适用于.txt文件而不适用于.docx文件的原因。我建议使用python-docx之类的库从.docx文件中提取文本

© www.soinside.com 2019 - 2024. All rights reserved.