聚类。如果因素不独立是否有问题？如何评估模型？

我的数据如下：每个观察值是一个人，变量是在清晨、晚间、下午、晚上和夜间做某项活动所花费的时间（以分钟为单位）（5个变量）。我把花费的时间换算成百分比，所以每个人的数据（即每一行）加起来会是1

我想根据人们做这项活动的模式来分组。例如，一个组可以是那些在清晨做大部分工作，晚上做一点的人，另一个组可以是那些只在某个时间工作的人，等等。

我有几个问题想知道如何去做。

1- 由于我使用的百分比加起来是1 我认为我的变量不是独立的。这种依赖性对聚类来说是个问题吗？

2- 这里使用高斯混合模型而不是KMeans有什么特别的优势吗？

3- 对于评估聚类，0.4是一个好的Silhouette分数吗？

4- 如果不同数量的聚类的Silhouette得分从0.4到0.49不等，我是否可以选择一个不给出最高Silhouette得分但在每个样本中给出更均衡的观测值的聚类数量（因为我更喜欢有均衡的类）？

5- 是否有一种方法可以 "折腾 "处于聚类边界上的观测值，只是为了让聚类更密集，提高Silhouette得分？

6- 减少变量的数量是一个好主意吗？例如，我可以将清晨和清晨晚期合并成一个变量，这样我就有4个因子而不是5个。这通常有助于改善聚类吗？

谢谢你的帮助

1
投票

不对，但是，维度少总比多好，你为什么不直接折腾你最后的数字，从而减少1个维度。
一般情况下不是这样的。
文档中给了一个很好的主意，如何使用剪影分。
见上面。
似乎是一个非常糟糕的想法。
在一般情况下，没有（举个极端的例子，把所有的观测值都堆在一起，不会给出有用的聚类（虽然会给出一个非常紧密的聚类））。然而，分层聚类（google）可以解决这个问题。

聚类。如果因素不独立是否有问题？ 如何评估模型？