如何确保大型HDF5中的唯一行

问题描述 投票:2回答:1

我正在努力在HDF5表中实现相对较大的时间序列数据集(不断增长的5,000,000)。我需要一种每天删除一次重复运行的方法。就我目前的数据检索过程而言,在数据检索过程中将重复项写入要比确保没有重复项容易得多。

从pytable中删除公母的最佳方法是什么?我的所有读物都指向我将整个表导入pandas中,并获得唯一值的数据框,并通过在每次运行数据时重新创建表将其写回磁盘。不过,这似乎与pytables背道而驰,而且随着时间的推移,我不知道整个数据集是否可以有效地放入内存中。我应该补充一点,它是定义唯一记录的两列。

没有可复制的代码,但是谁能给我pytables数据管理建议?

非常感谢...

python pandas hdf5 pytables
1个回答
4
投票

参见此相关问题:finding a duplicate in a hdf5 pytable with 500e6 rows

您为什么说这是“反击pytables”?完全可以存储重复项。用户对此负责。

您也可以尝试以下操作:merging two tables with millions of rows in python,在这里您使用的合并功能就是drop_duplicates()

© www.soinside.com 2019 - 2024. All rights reserved.