尝试处理 PDF 和 DOCX 文件时出现 Spacy 和 Srsly 错误”或“使用 Spacy 和 Srsly 处理文档时出现 ExtraData 错误

问题描述 投票:0回答:0

我正在尝试使用 Spacy 对文档进行分类,但在尝试读取我的文件时,我不断收到“ExtraData”错误。我正在使用 Python 3.9 和 Spacy 3.1.1。如何解决此错误并成功对我的文档进行分类?

我正在本地工作。

(venv) C:\Users\dexte\dev lasktest>python test_classification.py 追溯(最近一次通话): 文件“C:\Users\dexte\dev lasktest est_classification.py”,第 23 行,位于 类别 = 分类文件(文件路径) ^^^^^^^^^^^^^^^^^^^^^^^^^ 文件“C:\Users\dexte\dev lasktest est_classification.py”,第 10 行,在 classify_file 中 doc = nlp(f.read()) ^^^^^^^^^^^^^ 文件“C:\Users\dexte env\Lib\site-packages\spacy\language.py”,第 999 行,在call doc = self._ensure_doc(文本) ^^^^^^^^^^^^^^^^^^^^^^^ ensure_doc 中的文件“C:\Users\dexte env\Lib\site-packages\spacy\language.py”,第 1092 行 返回 Doc(self.vocab).from_bytes(doc_like) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ spacy.tokens.doc.Doc.from_bytes 中的文件“spacy okens\doc.pyx”,第 1324 行 文件“C:\Users\dexte env\Lib\site-packages\srsly_msgpack_api.py”,第 27 行,msgpack_loads msg = msgpack.loads(数据,raw=False,use_list=use_list) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ 文件“C:\Users\dexte env\Lib\site-packages\srsly\msgpack_init.py”,第 79 行,在 unpackb 返回 _unpackb(打包,**kwargs) ^^^^^^^^^^^^^^^^^^^^^^^^^^^ 文件“srsly\msgpack_unpacker.pyx”,第 199 行,在 srsly.msgpack._unpacker.unpackb srsly.msgpack.exceptions.ExtraData: unpack(b) 收到了额外的数据。

我正在尝试测试一个函数,以确保它正在对使用 NLP 上传的文件进行分类。

python spacy
© www.soinside.com 2019 - 2024. All rights reserved.