通过自定义指标进行句子聚类

问题描述 投票:0回答:1

我有一个政治主张的数据集,我想按相似性将它们分组。我已经开发了一个相似性函数,该函数使用一些正则表达式的组合来进行信息提取,使用相似的名词和动词的快速文本以及其他一些东西。

我想使用此相似性函数将它们聚类,但我不知道该怎么做。我已经看过在Gensim中使用Word2Vec / FastText模型的示例,然后使用类似nltk的方法表示聚类的聚类功能。这里的问题是我不能使用自定义相似度指标。

一种方法是计算矩阵中的所有距离,然后应用类似k近邻的方法对它们进行聚类,但是我想这不是最优雅的选择。

有没有简单的方法可以做到这一点?

python nlp nltk gensim fasttext
1个回答
0
投票

您可以使用自定义距离功能进行K均值。

© www.soinside.com 2019 - 2024. All rights reserved.