如何从 R 中的 png 文件中提取垂直书写的文本(日文风格)

问题描述 投票:0回答:0

我正在尝试从以垂直格式(从上到下,从右到左)混合使用韩文和中文的旧海报中提取文本,如此处 url 链接中的图片所示:http ://library.nec.go.kr/neweps/ezpdfwebviewer/ezpdf/customLayout.jsp?contentId=2F6570646174612F455030362F45434D323030362F30312F45434D303132303036303239312F45434D303132303036303239315F30313431532E706466

我有两个问题,如有任何帮助,将不胜感激:

  1. 如何提取从上到下、从右到左垂直书写的文本(而不是从上到下、从左到右水平书写的文本)?
  2. 如何从 png 文件中一次提取两种语言(韩文和中文字符)?

到目前为止我尝试过的是这样的:

library(tesseract)
library(magick)
tesseract_download("kor")
korean <- tesseract("kor")
pngfile <- pdftools::pdf_convert('/Users/R/USEFULRCODES/example2.pdf')
text <- tesseract::ocr(pngfile, engine = korean)
cat(text)

如上所述,我首先从上面提供的链接下载文件为 pdf,然后使用 pdf_convert 函数将其转换为 png 文件。然后我使用 tesseract pacakge 中的 ocr 函数来提取文本。但是,这会以错误的方向读取文本,从而使提取的文本难以理解。

r image web-scraping text cjk
© www.soinside.com 2019 - 2024. All rights reserved.