有没有好方法来存储大量小PDF文件?

问题描述 投票:0回答:1

我的工作性质要求我制作大量我正在分析的数据的 PDF 图像。一天结束时,我可能只使用 10% 的图像作为概念的“证明”,但我仍然想保存所有图像,以防人们想要仔细检查我的工作。

我正在考虑将PDF文件存储在hdf5文件中,但据我所知这是不可能的(我与hdf5文件的唯一接口是通过python中的h5py模块)。

大家有什么推荐吗?

pdf hdf5
1个回答
1
投票

可以在 HDF5 文件中存储(许多)PDF 文件。解决此问题的一种方法是为每个 PDF 创建一个数据集,并让该数据集的数据类型为一维不透明,大小等于 PDF 文件的大小。如果您不受特定技术的限制,您可以使用 HDFql 解决您的用例,如下所示:

# import HDFql package
import HDFql

# create an HDF5 file named 'pdf.h5' and use (i.e. open) it
HDFql.execute("CREATE AND USE FILE pdf.h5")

# get all files contained in root directory '/my_dir' which, for the sake
# of this example, contains the PDFs to store in the HDF5 file
HDFql.execute("SHOW FILE /my_dir/")

i = 0
while HDFql.cursor_next() == HDFql.SUCCESS:

    # get name of PDF file
    file_name = HDFql.cursor_get_char()

    # create dataset containing the content of the PDF file
    HDFql.execute("CREATE DATASET dset_%d VALUES FROM BINARY FILE \"/my_dir/%s\"" % (i, file_name))

    i += 1
© www.soinside.com 2019 - 2024. All rights reserved.