绘制稀疏矩阵的热图

Question

我有一个包含直方图的大型稀疏矩阵，我想将其绘制为热图。通常我会简单地绘制完整矩阵 (

)，如下所示：

import matplotlib.pyplot as plt
plt.imshow(h.T, interpolation="nearest", origin="lower")
plt.colorbar()
plt.savefig("corr.eps")

在这种情况下，我遇到的问题是完整矩阵的尺寸为

189,940x189,940

，这对我来说太大了，无法保存在内存中。我找到了有关绘制稀疏模式的帖子（例如 python matplotlib 绘制稀疏矩阵模式），但没有任何关于如何绘制热图而不将其转换为密集矩阵的文章。可以这样做吗？（或者是否有其他方法可以在不耗尽 RAM 的情况下绘制它？）我的稀疏矩阵目前是一个 lilmatrix (

scipy.sparse.lil_matrix

)。

Answer 1

一个想法是使用稀疏操作进行下采样。

 data = data.tocsc()       # sparse operations are more efficient on csc
 N, M = data.shape
 s, t = 400, 400           # decimation factors for y and x directions
 T = sparse.csc_matrix((np.ones((M,)), np.arange(M), np.r_[np.arange(0, M, t), M]), (M, (M-1) // t + 1))
 S = sparse.csr_matrix((np.ones((N,)), np.arange(N), np.r_[np.arange(0, N, s), N]), ((N-1) // s + 1, N))
 result = S @ data @ T     # downsample by binning into s x t rectangles
 result = result.todense() # ready for plotting

此代码片段实现了简单的分箱，但可以进行改进以合并更复杂的过滤器。分箱矩阵只是分箱 id 矩阵，例如 S_ij = 1 if j // s = i else 0.

更多解释。由于原始矩阵非常大，因此可以对其进行下采样，而不会在输出中出现任何视觉上明显的差异。

问题是如何在不首先创建密集表示的情况下进行下采样。一种可能的答案是用矩阵乘法来表达分箱，然后使用稀疏矩阵乘法。

因此，如果将右侧的原始数据与分箱矩阵

相乘，则

的列对应于列箱，特别是

的列数将决定下采样数据将有多少像素具有 x 方向。

的每一列决定什么进入相应的 bin，什么不进入。在示例中，我将（原始矩阵的）相邻列编码为 1 并将其余元素编码为 0。这将这些列相加，并将总和放入结果矩阵中，换句话说，它将这些列合并在一起.

从左乘以完全相同的方式工作，只是它影响行，而不影响列。

如果您觉得分箱太粗糙，您可以用平滑内核替换简单的零一方案，只需确保生成的矩阵保持稀疏即可。建立这样的矩阵需要更多的努力，但并不困难。您正在为数据使用稀疏矩阵，因此我假设您熟悉如何构造稀疏矩阵。

Answer 2

Paul 的方法是 matspy 用于制作间谍图的方法。从视觉上看，它看起来像这样：

Matspy 只关心稀疏模式而不关心值，但我们可以使用其内部辅助方法来创建这些左矩阵和右矩阵：

data  # a scipy matrix
binned_shape = tuple(int(x / 3) for x in data.shape)  # example: shrink by a third

from matspy.adapters.scipy_impl import generate_spy_triple_product_coo

left, right = generate_spy_triple_product_coo(data.shape, binned_shape)

result = left @ data @ right
result = result.todense()

绘制稀疏矩阵的热图

问题描述投票：0回答：2

2个回答

最新问题

绘制稀疏矩阵的热图

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2