如何将HDF文件（固定格式，多键）作为pandas数据框架？

Question

我得到了一个使用pandas创建的20GB的HDF5文件，但不幸的是，它是以固定格式（而不是表格）编写的，每一列都写成一个单独的键。这对于快速加载一个功能很好，但它不允许方便的面向表格的程序（例如，统计分析或绘图）。

试图将文件作为一个整体来加载，会出现以下错误。

ValueError: key must be provided when HDF5 file contains multiple datasets.

f=pd.read_hdf('file_path')

ValueError                             Traceback (most recent call last)

384             for group_to_check in groups[1:]:
385                 if not _is_metadata_of(group_to_check, candidate_only_group):

--> 386                     raise ValueError('key must be provided when HDF5 file '
    387                                      'contains multiple datasets.')
    388             key = candidate_only_group._v_pathname

ValueError: key must be provided when HDF5 file contains multiple datasets.

不幸的是，'key'不接受python列表，所以我不能简单地一次性加载所有文件。有没有办法将h5文件从 "固定 "转换为 "表格"？或者一次性将文件加载到数据框架中？目前我的解决方案是分别加载每一列，然后追加到一个空的数据框架中。

Answer 1

我不知道任何其他的方式，加载df列的列，但你可以大大自动化，使用 HDFStore 而不是 read_hdf:

with pd.HDFStore(filename) as h5:
    df = pd.concat(map(h5.get, h5.keys()), axis=1)

例如：

#save df as multiple datasets
df = pd.DataFrame({'a': [1,2], 'b': [10,20]})
df.a.to_hdf('/tmp/df.h5', 'a', mode='w', format='fixed')
df.b.to_hdf('/tmp/df.h5', 'b', mode='a', format='fixed')

#read columns and concat to dataframe    
with pd.HDFStore('/tmp/df.h5') as h5:
    df1 = pd.concat(map(h5.get, h5.keys()), axis=1)

#verify
assert all(df1 == df)

如何将HDF文件（固定格式，多键）作为pandas数据框架？

问题描述投票：0回答：1

1个回答

最新问题

如何将HDF文件（固定格式，多键）作为pandas数据框架？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1