从PDF中提取表格数据[关闭]

问题描述 投票:0回答:2

有没有一致的方法从PDF文件中提取表格?

到目前为止我所做的:

  • 我已经尝试过
    pdftotext
    工具。它有一个转换为 HTML 布局的选项。

这有什么问题:

  • 表格信息不会保留在 HTML 输出中
  • 我期待
    <table>
    标签,但所有内容都在
    <p>
    标签下。

PDF文档中是否有任何标记来指示表格结构?就像 HTML 中的

<table>
<tr>
<td>
吗?

如果“是”,任何指向此的指示都会有帮助。如果“否”,有关此事实的明确信息也很有帮助。

pdf pdftotext pdf-to-html
2个回答
23
投票

但是,您可以使用

pdftotext -layout input.pdf output.txt
。 它将 pdf 打印为文本文件并包含原始布局。没有标签,但是通过一些漂亮的脚本(perl / php / 等等),您可以从表中恢复数据。

如果您正在处理单个页面,您可能最好手动执行此操作,但如果您(像我一样)必须处理 100 或 1000 个页面,那么这可能是您可以获得的最佳结果。 我已经找了很长时间了,找不到比 pdftotext 更好的 pdf-2-text 工具。

输出有点不一致,并非所有类似的 pdf 表都会产生类似的 txt 输出,但这使您的脚本编写更有趣。


14
投票

如果 PDF 文档缺少将内容标记为表格、行、单元格等的信息(称为标签),则没有一致的方法从 PDF 文档中提取表格。大多数情况下,PDF 文档不包含这些标签。这些标签通常用于使 PDF 易于访问,以便可以大声朗读。 PDF 不需要这些标签即可有效。

© www.soinside.com 2019 - 2024. All rights reserved.