严重不平衡/倾斜的数据集群

问题描述 投票:0回答:1

我在 Alteryx 上的 k 均值聚类结果面临一些问题。我正在尝试对大约 5000 个文本描述的数据集进行主题建模。经过数据清理、解析和删除停用词和常用词后,我创建了一个包含 20 个单词和大约 5000 个文档的文档术语矩阵。

在 Alteryx 上运行 K-Means 聚类后,无论我指示了多少个聚类,所有聚类中始终只有 1 个文档,除了一个文档与其余所有聚类之外。例如:

2 个集群

  • 集群 1:19 个单词
  • 集群 2:1 个单词

3 个集群

  • 集群 1:18 个字
  • 集群 2:1 个单词
  • 集群 3:1 个单词

5 个集群

  • 集群 1:16 个单词
  • 集群 2:1 个单词
  • 集群 3:1 个单词
  • 集群 4:1 个单词
  • 集群 5:1 个单词

无论我指示了多少个聚类,这种聚类行为都会发生。寻求一些帮助来阐明并确定这些结果是否意味着我的数据有问题或者我是否没有使用正确的设置?

cluster-analysis k-means alteryx
1个回答
0
投票

你看过预处理后的数据吗?

现在可能很多文档都是空的,或者只包含一个单词。

除了找到常用词之外,已经没有多少了。

© www.soinside.com 2019 - 2024. All rights reserved.