我正试图解析一个pdf,并根据文本格式化和装饰对信息进行分类。你建议我如何做呢?例如,我有一个pdf,其中的结构是重复的。S.No. BOLD+UNDERLINED TITLE para
S.No. BOLD+UNDERLINED TITLE para
我如何根据文本装饰将这些数据分类为一个对象数组。
[ { sno: "", title: "", desc: "" }, ... ]
我通过文档中的 pdf2json 我想,我可能要用 pdfData.formImage.Pages[pageNumber].Texts[wordNumber].R[0] 对象解析pdf后得到我需要的值。
pdfData.formImage.Pages[pageNumber].Texts[wordNumber].R[0]
属性 TS 的值是一个数组,其在 TS[2] 对应于文本是否是 bold 值=1)或不(值=0)。我找不到任何有关以下数据的细节 underline text-decoration。
TS
TS[2]
bold
underline
我还需要初始化解析器,如下所示。let pdfParser = new PDFParser(null, 1). 检查 这个 更多细节。
let pdfParser = new PDFParser(null, 1)