我正在尝试使用“slate3k”读取pdf文件的文本数据。对我来说似乎很好。但我遇到解析错误
我一直在使用“python3.7”。
import slate3k
with open("/home/am-it/Desktop/PythonLearning/pdf_practice/invoice-1.pdf","rb")as file:
doc = slate3k.PDF(file)
print(doc)
上述代码的输出应该是 pdf 中的文本。但实际输出是
"Traceback (most recent call last):
File "/home/am-it/Desktop/PythonLearning/pdf_practice/invoslate.py", line 4, in <module>
doc = slate3k.PDF(file)
File "/home/administrator/.local/lib/python3.7/site-packages/slate3k/classes.py", line 59, in __init__
self.doc = PDFDocument()
TypeError: __init__() missing 1 required positional argument: 'parser'"
我已经传递了正确的文件对象,但仍然出现错误。所以请赐教
我的可以很好地使用单引号并且打印不缩进
import slate3k as slt
with open('pdfPythonTest.pdf','rb') as f:
extracted_text=slt.PDF(f)
print(extracted_text)
希望这有帮助!
伙计, 在这部分代码中: 打开(“/home/am-it/Desktop/PythonLearning/pdf_practice/invoice-1.pdf”,“rb”)作为文件:
您必须写入文件名加上扩展名,而不是路径。 所以,试试这个: 打开(“invoice-1.pdf”,“rb”)作为文件: