我需要从PDF文件中提取文本并制作一个新的.txt文件

问题描述 投票:-1回答:2

我需要PYTHON脚本中的帮助来阅读PDF文件并复制它上面的每个单词并将它们放在一个新的.txt文件中(每个单词必须占用1行);然后删除重复的单词并在此之后计算它们并在最后一行打印计数

python pdf python-3.7 pypdf2
2个回答
0
投票

安装这些库。

PyPDF2(将简单的基于文本的PDF文件转换为Python可读的文本)

textract(将非平凡的扫描PDF文件转换为Python可读的文本)

nltk(清除短语并将其转换为关键字)

可以在侧面终端(在macOS上)使用以下命令安装这些库中的每一个:

pip install Libraryname

请参阅此教程https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f

使用texttrack它支持多种类型的文件PDF。所以texttrack更好。

请关注这些链接

https://github.com/deanmalmgren/textract

https://textract.readthedocs.io/en/latest/


0
投票

您是否在Stackoverflow中搜索答案?

在这里你可以找到一些关于如何从pdf文件中提取文本的很好的答案(看看雅各布夫斯基答案):How to extract text from a PDF file?

在这里,您可以找到有关编写/编辑/创建.text文件的信息:qazxsw poi

© www.soinside.com 2019 - 2024. All rights reserved.