我有一些 pdf 文件,需要从中提取信息。我正在 centos 7 上使用 python 和 python 的 lib slate。 一开始,板岩效果很好。但后来我必须更新几个模块和库。 slate 库不再工作了。 为了解决这个问题,我尝试更新slate,并尝试使用不同的版本,但都不起作用。 错误是:
File "/usr/lib64/python2.7/StringIO.py", line 271, in getvalue
self.buf += ''.join(self.buflist)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 58: ordinal not in range(128)`
当我从代码中删除石板时,一切都工作正常。
我正在使用 slate 的一段代码:
def adequacaoCut(pdf, person, pathInt, pathImg):
with open('pdfs/'+pdf, 'rb') as f:
doc = slate.PDF(f)
print doc
... rest of code that works fine
石板版本:0.5.2
python版本:2.7
随着时间的流逝,我不再记得 python、centos 或我所做的任何事情上的哪些库或更新。 我应该怎么办?
我自己解决问题。我发现我的电脑中有两个 pdfminer(pdfminer 和 pdfminer.6)。我认为库之间存在某种冲突,或者 slate 试图调用 pdfminer.6 而不是 pdfminer。 我卸载了两者并仅重新安装 pdfminer 。现在它就像一个魅力。