我有一个 pdf 文件这里,我正在尝试从中获取文本,包括英语和阿拉伯语
我尝试了 tesseract 来提取阿拉伯语文本,并设法从主要的阿拉伯语诗句中提取一些内容,例如这个
然后我尝试了PyMUPDF,假设它是作为图像添加的。但它仍然忽略了这些经文。
我的问题,我怎么知道它是图像还是文本? 然后是我可以用来获得它的技术。 编辑 我的最终目标不是使用从文件中提取的阿拉伯语,而是根据阿拉伯语文本的位置将提取的文本分解为多个文件,那么您有什么建议可以解决吗?