使用python 3.5.0在Windows 8上提取Pdf的文本

问题描述 投票:3回答:3

我想在windows8的slate包的帮助下使用python 3.5.0从Pdf文件中提取文本。 问题:虽然我在尝试导入平板时仍然成功安装了slate包,但仍存在一定的错误。请提示我缺少的内容。

错误:

回溯(最近一次调用最后一次):文件“”,第1行,在导入平板文件“C:\ Users \ name \ AppData \ Local \ Programs \ Python \ Python35-32 \ lib \ site-packages \ slate-0.4.1 -py3.5.egg \ slate__init __。py“,第66行,来自平板导入PDF

ImportError:无法导入名称'PDF'

python pdf information-retrieval slate
3个回答
2
投票

你可以试试pdftotext图书馆的windows versionpoppler)。

作为一个独立的程序,它不需要Python。但我经常使用Python作为子进程,如下所示:

import subprocess

args = ['pdftotext', '-layout', '-q', 'input.pdf', '-']
txt = subprocess.check_output(args, universal_newlines=True)

1
投票

平板取决于PDFMiner(不支持Python 3。)

您可以尝试安装它:

pip install PDFMiner

我去安装pdfminer3k - pypi - 但它没有很好地响应蝙蝠(文档不好)所以我看了一点,找到了这个页面为possible alternatives。如果其中任何一个满足,请告诉我。


1
投票

您可以安装pdfminer.six

pip install pdfminer.six

https://pypi.python.org/pypi/pdfminer.six/20160614

© www.soinside.com 2019 - 2024. All rights reserved.