从 Pdf 文件中提取阿拉伯文本(作为图像添加)[已关闭]

问题描述 投票:0回答:0

我有一个 pdf 文件这里,我正在尝试从中获取文本,包括英语和阿拉伯语

我尝试了 tesseract 来提取阿拉伯语文本,并设法从主要的阿拉伯语诗句中提取一些内容,例如这个

然后我尝试了PyMUPDF,假设它是作为图像添加的。但它仍然忽略了这些经文。

我的问题,我怎么知道它是图像还是文本? 然后是我可以用来获得它的技术。 编辑 我的最终目标不是使用从文件中提取的阿拉伯语,而是根据阿拉伯语文本的位置将提取的文本分解为多个文件,那么您有什么建议可以解决吗?

arabic python-tesseract text-extraction pymupdf
© www.soinside.com 2019 - 2024. All rights reserved.