在JMP软件中,当行数大于2000时,可以选择使用“快速病房”方法。从documentation [快速病房:]]
“应用一种算法,对于大量行,它可以更快地计算Ward方法。由于该算法不需要计算距离矩阵,因此计算时间更短。只要有2000行以上,它就会自动使用。”] >
Matlab做同样的事情...。“在使用病房链接方法创建的分层群集树中最多找到四个群集。将'SaveMemory'指定为'on'可以在不计算距离矩阵的情况下构建群集。否则,如果您的内存不足,则会收到内存不足错误机器没有足够的内存来保存距离矩阵。“
我正在Python中寻找类似的东西,但它们似乎都需要提前计算距离矩阵(对于我的275k行和10列问题,这需要荒谬的内存量)。在JMP / Matlab中,尽管它在具有我要运行python脚本的机器一半内存的机器上工作得很好。有人知道吗?
在JMP软件中,当行数大于2000时,可以选择使用“快速Ward”方法。从文档[fast ward]:“应用一种计算Ward方法的算法...
来自a now-rolled-back edit to the question by the OP:
我发现使用“ linkage_vector”选项似乎是我想要的。我之所以被淘汰是因为“矢量”对我来说意味着一维,但我想它可能是N维。
您是否曾与fastcluster合作?它具有“来自矢量数据的距离矩阵或[>]