我需要从PDF文件中提取文本并制作一个新的.txt文件

Question

我需要PYTHON脚本中的帮助来阅读PDF文件并复制它上面的每个单词并将它们放在一个新的.txt文件中（每个单词必须占用1行）;然后删除重复的单词并在此之后计算它们并在最后一行打印计数

Answer 1

安装这些库。

PyPDF2（将简单的基于文本的PDF文件转换为Python可读的文本）

textract（将非平凡的扫描PDF文件转换为Python可读的文本）

nltk（清除短语并将其转换为关键字）

可以在侧面终端（在macOS上）使用以下命令安装这些库中的每一个：

pip install Libraryname

使用texttrack它支持多种类型的文件PDF。所以texttrack更好。

请关注这些链接

Answer 2

您是否在Stackoverflow中搜索答案？

在这里你可以找到一些关于如何从pdf文件中提取文本的很好的答案（看看雅各布夫斯基答案）：How to extract text from a PDF file?

在这里，您可以找到有关编写/编辑/创建.text文件的信息：qazxsw poi