如何在nodejs中解析一个PDF文件?

问题描述 投票:0回答:1

我正试图解析一个pdf,并根据文本格式化和装饰对信息进行分类。你建议我如何做呢?例如,我有一个pdf,其中的结构是重复的。S.No. BOLD+UNDERLINED TITLE para

我如何根据文本装饰将这些数据分类为一个对象数组。

[ 
  { sno: "", title: "", desc: "" }, 
  ... 
]
pdf2json
1个回答
0
投票

我通过文档中的 pdf2json 我想,我可能要用 pdfData.formImage.Pages[pageNumber].Texts[wordNumber].R[0] 对象解析pdf后得到我需要的值。

属性 TS 的值是一个数组,其在 TS[2] 对应于文本是否是 bold 值=1)或不(值=0)。我找不到任何有关以下数据的细节 underline text-decoration。

我还需要初始化解析器,如下所示。let pdfParser = new PDFParser(null, 1). 检查 这个 更多细节。

© www.soinside.com 2019 - 2024. All rights reserved.