我想将包含表格(游泳比赛结果)的 pdf 文件转换为文本文件。目的是将文本文件作为数据文件进行数据处理。
我运行的配置是:
我在论坛上找到以下命令行:
gs -dNOPAUSE -sDEVICE=txtwrite -dFirstPage=3 -dLastPage=119 -sOutputFile=output.txt -q swimresults.pdf -c quit
这给了我预期的文本文件,但只有最后一页
-dLastPage
.
将所有页面转换为 TXT 是我做错了什么吗?还是我应该检查输入的 PDF 文件,以防止正确完成操作?
您通过命令行调用该库的程序代码应该可以正常工作,因此您有权质疑为什么不这样做。
在我的测试中 commend 是正确的(但可以在句法上进行改进)
因此这里的问题是输入的结构是什么?
为了他人的利益,可以通过多种方式将文本嵌入到 PDF 中,只有一些方法可以提取