从PDF中提取表格数据[关闭]

Question

有没有一致的方法从PDF文件中提取表格？

到目前为止我所做的：

这有什么问题：

PDF文档中是否有任何标记来指示表格结构？就像 HTML 中的

<table>

、

<tr>

和

<td>

吗？

如果“是”，任何指向此的指示都会有帮助。如果“否”，有关此事实的明确信息也很有帮助。

Answer 1

但是，您可以使用

pdftotext -layout input.pdf output.txt

。它将 pdf 打印为文本文件并包含原始布局。没有标签，但是通过一些漂亮的脚本（perl / php / 等等），您可以从表中恢复数据。

如果您正在处理单个页面，您可能最好手动执行此操作，但如果您（像我一样）必须处理 100 或 1000 个页面，那么这可能是您可以获得的最佳结果。我已经找了很长时间了，找不到比 pdftotext 更好的 pdf-2-text 工具。

输出有点不一致，并非所有类似的 pdf 表都会产生类似的 txt 输出，但这使您的脚本编写更有趣。

Answer 2

如果 PDF 文档缺少将内容标记为表格、行、单元格等的信息（称为标签），则没有一致的方法从 PDF 文档中提取表格。大多数情况下，PDF 文档不包含这些标签。这些标签通常用于使 PDF 易于访问，以便可以大声朗读。 PDF 不需要这些标签即可有效。