我正在尝试从以垂直格式(从上到下,从右到左)混合使用韩文和中文的旧海报中提取文本,如此处 url 链接中的图片所示:http ://library.nec.go.kr/neweps/ezpdfwebviewer/ezpdf/customLayout.jsp?contentId=2F6570646174612F455030362F45434D323030362F30312F45434D303132303036303239312F45434D303132303036303239315F30313431532E706466
我有两个问题,如有任何帮助,将不胜感激:
到目前为止我尝试过的是这样的:
library(tesseract)
library(magick)
tesseract_download("kor")
korean <- tesseract("kor")
pngfile <- pdftools::pdf_convert('/Users/R/USEFULRCODES/example2.pdf')
text <- tesseract::ocr(pngfile, engine = korean)
cat(text)
如上所述,我首先从上面提供的链接下载文件为 pdf,然后使用 pdf_convert 函数将其转换为 png 文件。然后我使用 tesseract pacakge 中的 ocr 函数来提取文本。但是,这会以错误的方向读取文本,从而使提取的文本难以理解。