我有一个由交易数据组成的数据框,每一行都是交易,每一列都是特征,例如资产类型。由于大多数是分类的,因此我将kmodes应用于此数据。当我使用此https://pypi.org/project/kmodes/运行kmodes算法时,我不确定一旦获得质心,每个集群将具有哪些特征。如何对此应用某种PCA /多维缩放?不知道接下来如何查看每个类别的特征/哪些特征很重要。
km = KModes(n_clusters=4, init='Huang', n_init=5, verbose=1)
clusters = km.fit_predict(Trade_DataFrame)
print(km.cluster_centroids_)
Trade_DataFrame['clusters']=clusters ## how do i use this to see what features belong to each
结果是我得到了这个,但不确定是什么意思,为什么4是最好的?因为成本最低?
Run 4, iteration: 1/100, moves: 1692, cost: 118602.0
Run 4, iteration: 2/100, moves: 659, cost: 117828.0
Run 4, iteration: 3/100, moves: 242, cost: 117828.0
Init: initializing centroids
Init: initializing clusters
Starting iterations...
Run 5, iteration: 1/100, moves: 1486, cost: 121893.0
Run 5, iteration: 2/100, moves: 66, cost: 121893.0
Best run was number 4
centroids=pd.DataFrame(km.cluster_centroids_)
centroids