H5Py和存储

问题描述 投票:1回答:1

我正在编写一些代码,需要将非常大的numpy数组保存到内存中。实际上,numpy数组是如此之大,以至于我无法一次将其全部加载到内存中。但是我可以分块计算数组。即我的代码看起来像:

for i in np.arange(numberOfChunks):

   myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = #... do some calculation

由于无法将myArray一次全部加载到内存中,因此我想一次将其保存到一个“大块”文件中。即我想做这样的事情:

for i in np.arange(numberOfChunks):

   myArrayChunk = #... do some calculation to obtain chunk

   saveToFile(myArrayChunk, indicesInFile=[(i*chunkSize):(i*(chunkSize+1)),:,:], filename)

我知道可以使用h5py完成此操作,但是我对此却有些困惑。我目前的理解是,我可以做到这一点:

import h5py

# Make the file
h5py_file = h5py.File(filename, "a")

# Tell it we are going to store a dataset
myArray = h5py_file.create_dataset("myArray", myArrayDimensions, compression="gzip")


for i in np.arange(numberOfChunks):

   myArrayChunk = #... do some calculation to obtain chunk

   myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk

但是这让我有些困惑。我已经读到,如果像我编写h5py时那样索引myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]数据类型,则myArray的这一部分现在已读入内存。因此,可以肯定的是,在上述循环结束时,我现在是否还没有将整个myArray保留在内存中?这如何保存我的记忆?

类似地,稍后,我想一次读回我的文件,进行进一步的计算。即,我想做类似的事情:

import h5py

# Read in the file
h5py_file = h5py.File(filename, "a")

# Read in myArray
myArray = h5py_file['myArray']

for i in np.arange(numberOfChunks):

   # Read in chunk
   myArrayChunk = myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]

   # ... Do some calculation on myArrayChunk

但是在此循环结束时,整个myArray现在是否在内存中?我对myArray[(i*chunkSize):(i*(chunkSize+1)),:,:]何时在内存中以及何时不在内存中感到困惑。请有人可以解释一下。

python numpy hdfs h5py
1个回答
0
投票

您有基本的想法。说“保存到内存”时要小心。 NumPy数组保存在内存(RAM)中。 HDF5数据保存在磁盘上(而不是内存/ RAM!),然后进行访问(使用的内存取决于访问方式)。在第一步中,您将创建数据并将其分块写入磁盘。在第二步中,您将分块访问磁盘中的数据。最后提供了工作示例。

[使用h5py读取数据时,有两种读取数据的方法:这将返回一个NumPy数组:myArrayNP = myArray[:,:,:]这将返回一个h5py数据集对象,其操作类似于NumPy数组:myArrayDS = myArray

区别:h5py数据集对象不会一次全部读入内存。然后,您可以根据需要对其进行切片。从上面继续,这是获取数据子集的有效操作:myArrayChunkNP = myArrayDS[i*chunkSize):(i+1)*chunkSize),:,:]

我的示例还纠正了块大小增量方程式中的1个小错误。你有过:myArray[(i*chunkSize):(i*(chunkSize+1)),:,:] = myArrayChunk你要:myArray[(i*chunkSize):(i+1)*chunkSize),:,:] = myArrayChunk

工作示例(读写):

import h5py
import numpy as np

# Make the file
with h5py.File("SO_61173314.h5", "w") as h5w:

    numberOfChunks = 3
    chunkSize = 4
    print( 'WRITING %d chunks with w/ chunkSize=%d ' % (numberOfChunks,chunkSize) )
    # Write dataset to disk
    h5Array = h5w.create_dataset("myArray", (numberOfChunks*chunkSize,2,2), compression="gzip")

    for i in range(numberOfChunks):

       h5ArrayChunk = np.random.random(chunkSize*2*2).reshape(chunkSize,2,2)
       print (h5ArrayChunk)

       h5Array[(i*chunkSize):((i+1)*chunkSize),:,:] = h5ArrayChunk


with h5py.File("SO_61173314.h5", "r") as h5r:
    print( '/nREADING %d chunks with w/ chunkSize=%d/n' % (numberOfChunks,chunkSize) )

    # Access myArray dataset - Note: This is NOT a NumpPy array
    myArray = h5r['myArray']

    for i in range(numberOfChunks):

       # Read a chunk into memory (as a NumPy array)
       myArrayChunk = myArray[(i*chunkSize):((i+1)*chunkSize),:,:]

       # ... Do some calculation on myArrayChunk  
       print (myArrayChunk)
© www.soinside.com 2019 - 2024. All rights reserved.