如何在很少的内存使用情况下群集大量数据

问题描述 投票:0回答:1

我正在使用scipy.cluster.hierarchy.fclusterdata函数对向量列表(具有384个分量的向量)进行聚类。

它很好用,但是当我尝试集群大量数据时,我的内存不足了,程序崩溃了。

如何在不耗尽内存的情况下执行同一任务?

我的机器具有32GB RAM,Windows 10 x64,python 3.6(64位)

python python-3.x scipy cluster-analysis data-analysis
1个回答
0
投票

您需要选择其他算法。

分级聚类需要O(n²)内存,教科书算法需要O(n³)时间。此cannot可以很好地扩展到大数据。

© www.soinside.com 2019 - 2024. All rights reserved.