大数据集的数组索引

问题描述 投票:0回答:0

我有两个大数据集(A 和 B),每个数据集包含 200000 个图像文件,每个文件的形状为 (44000,44000)。数据类型是 unint16。 因此,如果读取了所有文件,它将是:(200000,44000,44000)。

类似地,数据集 B 也具有相同的大小和相同的数据类型,(200000,44000,44000)。

我需要做的是从数据集 A 中找到跨轴 0 的最大值索引,然后从数据集 B 中提取相应的值。

简单的情况下,如下

将 numpy 导入为 np

a = np.array([[11,12,39,14], [15,16,29,18]])
b = np.array([[1,2,3,4], [5,6,7,8]])

print (a.shape)

#expected result is[5,6,**3**,8]

这么大的数据集放不下内存怎么办?

python numpy bigdata dask python-xarray
© www.soinside.com 2019 - 2024. All rights reserved.