聚类。如果因素不独立是否有问题? 如何评估模型?

问题描述 投票:1回答:1

我的数据如下:每个观察值是一个人,变量是在清晨、晚间、下午、晚上和夜间做某项活动所花费的时间(以分钟为单位)(5个变量)。我把花费的时间换算成百分比,所以每个人的数据(即每一行)加起来会是1

我想根据人们做这项活动的模式来分组。例如,一个组可以是那些在清晨做大部分工作,晚上做一点的人,另一个组可以是那些只在某个时间工作的人,等等。

我有几个问题想知道如何去做。

1- 由于我使用的百分比加起来是1 我认为我的变量不是独立的。这种依赖性对聚类来说是个问题吗?

2- 这里使用高斯混合模型而不是KMeans有什么特别的优势吗?

3- 对于评估聚类,0.4是一个好的Silhouette分数吗?

4- 如果不同数量的聚类的Silhouette得分从0.4到0.49不等,我是否可以选择一个不给出最高Silhouette得分但在每个样本中给出更均衡的观测值的聚类数量(因为我更喜欢有均衡的类)?

5- 是否有一种方法可以 "折腾 "处于聚类边界上的观测值,只是为了让聚类更密集,提高Silhouette得分?

6- 减少变量的数量是一个好主意吗?例如,我可以将清晨和清晨晚期合并成一个变量,这样我就有4个因子而不是5个。这通常有助于改善聚类吗?

谢谢你的帮助

python cluster-analysis k-means mixture-model
1个回答
1
投票
  1. 不对,但是,维度少总比多好,你为什么不直接折腾你最后的数字,从而减少1个维度。
  2. 一般情况下不是这样的。
  3. 文档中 给了一个很好的主意,如何使用剪影分。
  4. 见上面。
  5. 似乎是一个非常糟糕的想法。
  6. 在一般情况下,没有(举个极端的例子,把所有的观测值都堆在一起,不会给出有用的聚类(虽然会给出一个非常紧密的聚类))。然而,分层聚类(google)可以解决这个问题。
© www.soinside.com 2019 - 2024. All rights reserved.