我有一个 Excel 文件,其中包含嵌入(附加)的 PDF。
我正在尝试使用 PHPExcel 和 PHPSpreadsheet 来获取数据。我成功获取图像,但无法访问 PDF 等其他对象
我的第一次尝试是使用 PHP,但如果可以使用 Python,我也很好
XLSX 是 Excel 组件的 Zip 容器,因此我们可以打开 zip 文件并操作其中的内容。
我们感兴趣的对象位于“embeddings”文件夹中,如果只有一个嵌入,则很容易提取为 oleObject1.bin,因此提取一行,启动编辑器或自定义 python 查找并保存一行。
在该 BIN 文件中,我们可以文件查找 PDF 标题的地址
%PDF-
还可以文件查找其 EOF @ 00004794
%%EOF\x0A
现在使用任何方法(例如 Heads and Tails),拼接出 PDF(在本例中为 2554 字节)并保存为 BINary.pdf