您好,我是 AWS Textract 新手。
我正在使用 Amazon Textract 从 PDF 文件中提取文本。但是,输出不会保留原始 PDF 中的换行符。
例如,在 PDF 中有单独的行,例如:
卖家
买家
但是在 Textract 输出中,它将其读作: 卖家: 买家:
我希望 Textract 保留原始 PDF 中的换行符和结构。这些线条表示不同的部分,因此我需要保留该格式。
有什么方法可以配置 Textract 输出多行字符串,而不是将所有内容连接到一行中?或者是否需要对 Textract 结果进行后处理以根据换行符拆分它?
任何有关如何在保留原始行结构的同时从 PDF 中正确提取文本的建议,我们将不胜感激。
您可以使用
amazon-textract-textractor
包与 Amazon Textract 交互。
例如,您可以像这样提取文本
from textractor import Textractor
from textractor.data.constants import TextractFeatures
extractor = Textractor(profile_name="default")
document = extractor.detect_document_text(
file_source="./gvE4G.png",
)
在此处访问各个线路
document.lines
这就是您在编辑后的文档中得到的内容。
[-,
DATE,
28-Oct-22,
BC#,
2810,
confirms@,
BUYER,
SELLER,
ties LLC,
ing LLC,
Denis Garcia,
Hugh Murtha,
h,
ura.com,
point.com,
3050 Post Oak Bvld,
5 Houston Center1401 McKinney Suite 1500,
Houston,
Houston,
TX, 77098,
TX, 77056]