Python中的“快速病房”群集

问题描述 投票:0回答:1

在JMP软件中,当行数大于2000时,可以选择使用“快速病房”方法。从documentation [快速病房:]]

“应用一种算法,对于大量行,它可以更快地计算Ward方法。由于该算法不需要计算距离矩阵,因此计算时间更短。只要有2000行以上,它就会自动使用。”] >

Matlab做同样的事情...。“在使用病房链接方法创建的分层群集树中最多找到四个群集。将'SaveMemory'指定为'on'可以在不计算距离矩阵的情况下构建群集。否则,如果您的内存不足,则会收到内存不足错误机器没有足够的内存来保存距离矩阵。“

我正在Python中寻找类似的东西,但它们似乎都需要提前计算距离矩阵(对于我的275k行和10列问题,这需要荒谬的内存量)。在JMP / Matlab中,尽管它在具有我要运行python脚本的机器一半内存的机器上工作得很好。有人知道吗?

在JMP软件中,当行数大于2000时,可以选择使用“快速Ward”方法。从文档[fast ward]:“应用一种计算Ward方法的算法...

python python-3.x hierarchical-clustering
1个回答
0
投票

来自a now-rolled-back edit to the question by the OP

我发现使用“ linkage_vector”选项似乎是我想要的。我之所以被淘汰是因为“矢量”对我来说意味着一维,但我想它可能是N维。


0
投票

您是否曾与fastcluster合作?它具有“来自矢量数据的距离矩阵或[>]

© www.soinside.com 2019 - 2024. All rights reserved.