我的数据如下:每个观察值是一个人,变量是在清晨、晚间、下午、晚上和夜间做某项活动所花费的时间(以分钟为单位)(5个变量)。我把花费的时间换算成百分比,所以每个人的数据(即每一行)加起来会是1
我想根据人们做这项活动的模式来分组。例如,一个组可以是那些在清晨做大部分工作,晚上做一点的人,另一个组可以是那些只在某个时间工作的人,等等。
我有几个问题想知道如何去做。
1- 由于我使用的百分比加起来是1 我认为我的变量不是独立的。这种依赖性对聚类来说是个问题吗?
2- 这里使用高斯混合模型而不是KMeans有什么特别的优势吗?
3- 对于评估聚类,0.4是一个好的Silhouette分数吗?
4- 如果不同数量的聚类的Silhouette得分从0.4到0.49不等,我是否可以选择一个不给出最高Silhouette得分但在每个样本中给出更均衡的观测值的聚类数量(因为我更喜欢有均衡的类)?
5- 是否有一种方法可以 "折腾 "处于聚类边界上的观测值,只是为了让聚类更密集,提高Silhouette得分?
6- 减少变量的数量是一个好主意吗?例如,我可以将清晨和清晨晚期合并成一个变量,这样我就有4个因子而不是5个。这通常有助于改善聚类吗?
谢谢你的帮助