我有两个大数据集(A 和 B),每个数据集包含 200000 个图像文件,每个文件的形状为 (44000,44000)。数据类型是 unint16。 因此,如果读取了所有文件,它将是:(200000,44000,44000)。
类似地,数据集 B 也具有相同的大小和相同的数据类型,(200000,44000,44000)。
我需要做的是从数据集 A 中找到跨轴 0 的最大值索引,然后从数据集 B 中提取相应的值。
简单的情况下,如下
将 numpy 导入为 np
a = np.array([[11,12,39,14], [15,16,29,18]])
b = np.array([[1,2,3,4], [5,6,7,8]])
print (a.shape)
#expected result is[5,6,**3**,8]
这么大的数据集放不下内存怎么办?