如何从 R 中的 png 文件中提取垂直书写的文本（日文风格）

问题描述投票：0回答：0

我正在尝试从以垂直格式（从上到下，从右到左）混合使用韩文和中文的旧海报中提取文本，如此处 url 链接中的图片所示：http ://library.nec.go.kr/neweps/ezpdfwebviewer/ezpdf/customLayout.jsp?contentId=2F6570646174612F455030362F45434D323030362F30312F45434D303132303036303239312F45434D303132303036303239315F30313431532E706466

我有两个问题，如有任何帮助，将不胜感激：

如何提取从上到下、从右到左垂直书写的文本（而不是从上到下、从左到右水平书写的文本）？
如何从 png 文件中一次提取两种语言（韩文和中文字符）？

到目前为止我尝试过的是这样的：

library(tesseract)
library(magick)
tesseract_download("kor")
korean <- tesseract("kor")
pngfile <- pdftools::pdf_convert('/Users/R/USEFULRCODES/example2.pdf')
text <- tesseract::ocr(pngfile, engine = korean)
cat(text)

如上所述，我首先从上面提供的链接下载文件为 pdf，然后使用 pdf_convert 函数将其转换为 png 文件。然后我使用 tesseract pacakge 中的 ocr 函数来提取文本。但是，这会以错误的方向读取文本，从而使提取的文本难以理解。

r image web-scraping text cjk

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.