预测使用一个训练有素的K-Means模型未见数据正确的集群

问题描述 投票:0回答:1

我知道,K均值是一个懒惰的学生,将不得不从头开始重新培训新的点,但还是想知道是否有任何解决方法,使用经过训练的模型来预测一个新的看不见的数据。

我使用K-means算法聚类医疗语料库。我创建一个术语文档矩阵来表示这个语料库。供给数据到k均值算法之前,我执行对维数降低的数据截断奇异值分解。我一直在想,如果有集群新看不见的文档,而无需重新培训整个模型的方式。

要获得新的文档的向量表示,并使用训练的模型预测其集群,我需要确保它具有相同的词汇作为训练的模型,并且还保持在术语文档矩阵的顺序相同。这可以考虑,这些文件也有类似的词汇的。但是,我怎么得到这个文件的SVD表示?现在,这里就是我的理解变得有点不稳,所以纠正我,如果我错了,但对这个向量表示执行SVD,我需要将其追加到原词 - 文档矩阵。现在,如果我这个新的文件附加到原词 - 文档矩阵,并在其上执行SVD得到(在这种情况下100),功能有限的向量表示,那么我不知道事情会如何变化?将由SVD选择的新功能语义对应于与原有的?即,它不会使感测从聚类中心新文档的距离(与100个特征)如果相应的特征把握不同的概念。

有没有办法使用新文本数据的训练有素的k均值模型的方法吗?或任何其他更适合的聚类方法完成这个任务?

nlp cluster-analysis k-means svd unsupervised-learning
1个回答
1
投票

你的问题是不是K-手段,使用数据将工作手段简单的近邻classificator。

你的问题是SVD,这并不稳定。添加新的数据可以给你完全不同的结果。

© www.soinside.com 2019 - 2024. All rights reserved.