如何从PDF文件提取文本？我只想提取主要主题词和副主题词

问题描述投票：0回答：1

有没有办法从pdf中提取粗体字？是否可以仅提取主要主题词和次要主题词？

data-science data-mining text-mining

1个回答

0
投票

Python中有许多库可以提取PDF数据。我现在列出了一些我眼中的著名人物。

Textract-https://textract.readthedocs.io/en/stable/python_package.html

Pytesseract-https://nanonets.com/blog/ocr-with-tesseract/

Pyocr-https://gitlab.gnome.org/World/OpenPaperwork/pyocr

这些链接可以导航到每个库的示例代码。

有一个中等的博客，可以总结所有3个https://medium.com/@winston.smith.spb/python-ocr-for-pdf-or-compare-textract-pytesseract-and-pyocr-acb19122f38c。

如果这些工具无法提取全文，则可以使用ImageMagick预处理PDF图像以突出显示要提取的内容。

样本用法：http://www.imagemagick.org/discourse-server/viewtopic.php?t=35308 https://www.imagemagick.org/discourse-server/viewtopic.php?t=32263

如果仍然无法解决问题，则编写自己的OCR并根据拾取的坐标缝合字符串。

[有一种许可的解决方案可以使用任何一种语言https://www.pdftron.com/

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.