从 Pdf 文件中提取阿拉伯文本（作为图像添加）[已关闭]

问题描述投票：0回答：0

我有一个 pdf 文件这里，我正在尝试从中获取文本，包括英语和阿拉伯语

我尝试了 tesseract 来提取阿拉伯语文本，并设法从主要的阿拉伯语诗句中提取一些内容，例如这个

然后我尝试了PyMUPDF，假设它是作为图像添加的。但它仍然忽略了这些经文。

我的问题，我怎么知道它是图像还是文本？然后是我可以用来获得它的技术。 编辑我的最终目标不是使用从文件中提取的阿拉伯语，而是根据阿拉伯语文本的位置将提取的文本分解为多个文件，那么您有什么建议可以解决吗？

arabic

python-tesseract

text-extraction

pymupdf