AWS Textract OCR 将 PDF 读取为单行,而不是保留换行符

问题描述 投票:0回答:1

您好,我是 AWS Textract 新手。

我正在使用 Amazon Textract 从 PDF 文件中提取文本。但是,输出不会保留原始 PDF 中的换行符。

例如,在 PDF 中有单独的行,例如:

卖家

买家

但是在 Textract 输出中,它将其读作: 卖家: 买家:

文本不是单独的行,而是连接成单个字符串。

我希望 Textract 保留原始 PDF 中的换行符和结构。这些线条表示不同的部分,因此我需要保留该格式。

有什么方法可以配置 Textract 输出多行字符串,而不是将所有内容连接到一行中?或者是否需要对 Textract 结果进行后处理以根据换行符拆分它?

任何有关如何在保留原始行结构的同时从 PDF 中正确提取文本的建议,我们将不胜感激。

pdf ocr text-processing amazon-textract
1个回答
0
投票

您可以使用

amazon-textract-textractor
包与 Amazon Textract 交互。

例如,您可以像这样提取文本

from textractor import Textractor
from textractor.data.constants import TextractFeatures
extractor = Textractor(profile_name="default")
document = extractor.detect_document_text(
    file_source="./gvE4G.png",
)

在此处访问各个线路

document.lines

这就是您在编辑后的文档中得到的内容。

[-,
 DATE,
 28-Oct-22,
 BC#,
 2810,
 confirms@,
 BUYER,
 SELLER,
 ties LLC,
 ing LLC,
 Denis Garcia,
 Hugh Murtha,
 h,
 ura.com,
 point.com,
 3050 Post Oak Bvld,
 5 Houston Center1401 McKinney Suite 1500,
 Houston,
 Houston,
 TX, 77098,
 TX, 77056]
© www.soinside.com 2019 - 2024. All rights reserved.