热图和热图之间的执行时间差

Question

我试图想象相当大的矩阵（即10000 x 100）。如果我假设我对在列或行上执行的任何其他聚类不感兴趣（这可能是有问题的，因为维度很高），这似乎是可行的。

我开始使用heatmap.2包中增强的gplots。由于我想忽略聚类或重新排序，根据文档和Stack建议（例如heatmap.2 specify row order OR prevent reorder），我设置了适当的参数

heatmap.2(some_data, Rowv = FALSE, Colv = FALSE, dendrogram = "none", trace="none")

然而，事实证明，执行时间非常长，好像它取决于行数是二次的，实际上就是这种情况。请参阅下图中的依赖关系。

另一方面，当我使用heatmap的基本stats函数并抑制树状图时

heatmap(same_data, Rowv = NA, Colv = NA)

计算执行时间是线性的，绝对可以忽略不计。这是执行时间的比较.

我用来生成上述图的数据的代码是

num.rows <- c(100, 500, 1000, 1500, 2000, 2500, 3000)

times.heatmap.2 <- sapply(num.rows, function(rown){
  m <- matrix(rnorm(rown*50), rown, 50)
  system.time(tmp <- gplots::heatmap.2(m, Rowv = FALSE, Colv = FALSE, dendrogram = "none", trace="none"))
})    

times.heatmap <- sapply(num.rows, function(rown){
  m <- matrix(rnorm(rown*50), rown, 50)
  system.time(tmp <- heatmap(m, Rowv = NA, Colv = NA))
})

最后，问题。

有没有人知道为什么heatmap.2有如此长的执行时间，并且可能是对数据大小的二次依赖，即使它应该忽略任何二次运算（例如聚类）？
有没有我应该使用的参数，或者我们应该深入研究功能的源代码来诊断问题？

Answer 1

你可以试试这个：

install.packages("heatmap3")

num.rows <- c(100, 500, 1000, 1500, 2000, 2500, 3000)

times.heatmap.3 <- sapply(num.rows, function(rown){
  m <- matrix(rnorm(rown*50), rown, 50)
  system.time(tmp <- heatmap3(m, Rowv = FALSE, Colv = FALSE, dendrogram = "none", trace="none"))
})

热图和热图之间的执行时间差

问题描述投票：0回答：1

1个回答

最新问题

热图和热图之间的执行时间差

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1