我正在使用scipy.cluster.hierarchy.fclusterdata函数对向量列表(具有384个分量的向量)进行聚类。
scipy.cluster.hierarchy.fclusterdata
它很好用,但是当我尝试集群大量数据时,我的内存不足了,程序崩溃了。
如何在不耗尽内存的情况下执行同一任务?
我的机器具有32GB RAM,Windows 10 x64,python 3.6(64位)
您需要选择其他算法。
分级聚类需要O(n²)内存,教科书算法需要O(n³)时间。此cannot可以很好地扩展到大数据。