大数据集的数组索引

大数据集的数组索引

问题描述投票：0回答：0

我有两个大数据集（A 和 B），每个数据集包含 200000 个图像文件，每个文件的形状为 (44000,44000)。数据类型是 unint16。因此，如果读取了所有文件，它将是：(200000,44000,44000)。

类似地，数据集 B 也具有相同的大小和相同的数据类型，(200000,44000,44000)。

我需要做的是从数据集 A 中找到跨轴 0 的最大值索引，然后从数据集 B 中提取相应的值。

简单的情况下，如下

将 numpy 导入为 np

a = np.array([[11,12,39,14], [15,16,29,18]])
b = np.array([[1,2,3,4], [5,6,7,8]])

print (a.shape)

#expected result is[5,6,**3**,8]

这么大的数据集放不下内存怎么办？

python

numpy

bigdata

dask

python-xarray