预测使用一个训练有素的K-Means模型未见数据正确的集群

问题描述投票：0回答：1

我知道，K均值是一个懒惰的学生，将不得不从头开始重新培训新的点，但还是想知道是否有任何解决方法，使用经过训练的模型来预测一个新的看不见的数据。

我使用K-means算法聚类医疗语料库。我创建一个术语文档矩阵来表示这个语料库。供给数据到k均值算法之前，我执行对维数降低的数据截断奇异值分解。我一直在想，如果有集群新看不见的文档，而无需重新培训整个模型的方式。

要获得新的文档的向量表示，并使用训练的模型预测其集群，我需要确保它具有相同的词汇作为训练的模型，并且还保持在术语文档矩阵的顺序相同。这可以考虑，这些文件也有类似的词汇的。但是，我怎么得到这个文件的SVD表示？现在，这里就是我的理解变得有点不稳，所以纠正我，如果我错了，但对这个向量表示执行SVD，我需要将其追加到原词 - 文档矩阵。现在，如果我这个新的文件附加到原词 - 文档矩阵，并在其上执行SVD得到（在这种情况下100），功能有限的向量表示，那么我不知道事情会如何变化？将由SVD选择的新功能语义对应于与原有的？即，它不会使感测从聚类中心新文档的距离（与100个特征）如果相应的特征把握不同的概念。

有没有办法使用新文本数据的训练有素的k均值模型的方法吗？或任何其他更适合的聚类方法完成这个任务？

nlp

cluster-analysis

k-means

svd

unsupervised-learning

1个回答

1
投票

你的问题是不是K-手段，使用数据将工作手段简单的近邻classificator。

你的问题是SVD，这并不稳定。添加新的数据可以给你完全不同的结果。

预测使用一个训练有素的K-Means模型未见数据正确的集群

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1