有没有办法从pdf中提取粗体字?是否可以仅提取主要主题词和次要主题词?
Python中有许多库可以提取PDF数据。我现在列出了一些我眼中的著名人物。
Textract-https://textract.readthedocs.io/en/stable/python_package.html
Pytesseract-https://nanonets.com/blog/ocr-with-tesseract/
Pyocr-https://gitlab.gnome.org/World/OpenPaperwork/pyocr
这些链接可以导航到每个库的示例代码。
有一个中等的博客,可以总结所有3个https://medium.com/@winston.smith.spb/python-ocr-for-pdf-or-compare-textract-pytesseract-and-pyocr-acb19122f38c。
如果这些工具无法提取全文,则可以使用ImageMagick预处理PDF图像以突出显示要提取的内容。
样本用法:http://www.imagemagick.org/discourse-server/viewtopic.php?t=35308https://www.imagemagick.org/discourse-server/viewtopic.php?t=32263
如果仍然无法解决问题,则编写自己的OCR并根据拾取的坐标缝合字符串。
[有一种许可的解决方案可以使用任何一种语言https://www.pdftron.com/