实际上我在file_list中有八个“ .txt”文件和两个“ .docx”文件。我的任务是从文件列表中的所有文件中消除所有停用词和标点符号。我只是提供了我遇到错误的部分代码。有人可以指导我如何从所有文件类型中消除停用词和标点符号吗?我尝试了以下代码,但无法成功执行。我也在这里提供文件夹。file_list。另外,当我运行以下代码时,.docx文件遇到UTF-8错误。
from string import punctuation
for each_file in range(1, len(file_list)):
print("Current working filename is:",file_list[each_file],end="\n")
with open(file_list[each_file],'r',encoding='utf-8') as file:
without_punct = [char for char in file.readlines() if char not in punctuation]
print(without_punct)
您会收到.docx文件的编码错误,因为.docx文件不是标准的文本文件,这意味着它具有自己的格式。 Python本机支持读取纯文本文件,这就是为什么它适用于.txt文件而不适用于.docx文件的原因。我建议使用python-docx之类的库从.docx文件中提取文本