如何在很少的内存使用情况下群集大量数据

我正在使用scipy.cluster.hierarchy.fclusterdata函数对向量列表（具有384个分量的向量）进行聚类。

它很好用，但是当我尝试集群大量数据时，我的内存不足了，程序崩溃了。

如何在不耗尽内存的情况下执行同一任务？

我的机器具有32GB RAM，Windows 10 x64，python 3.6（64位）

python python-3.x scipy cluster-analysis data-analysis

0
投票

您需要选择其他算法。

分级聚类需要O（n²）内存，教科书算法需要O（n³）时间。此cannot可以很好地扩展到大数据。