我正在运行Tesseract 4.0.0,我尝试使用以下命令来创建可搜索的pdf,但它似乎不起作用:
tesseract input output pdf
给出错误:
can't open file "\Program Files\...//pdf.ttf"!
error during processing
PDF文件已创建,但无法打开。我尝试了不同的图像格式:jpg,tif,png,但没有成功。
它确实可以工作,不确定您使用的是哪个操作系统,但是我意识到要使其在Linux上运行,必须进行完整安装
sudo apt install tesseract-ocr
sudo apt install tesseract-ocr-all
然后,例如对于德语文档,最初是多页tif:
tesseract multipage-tiff.tif out pdf -l deu