与Gensim Doc2Vec最不相似

问题描述 投票:0回答:1

most_similar方法找到前N个最相似的词。

是否有找到N个最不相似的单词的方法或方法?

gensim doc2vec
1个回答
1
投票

您可以使用与向量整体一样大的topn参数,通过相似度获得所有向量的完整排名列表。然后只看最后一个N。例如:

import sys
all_sims = vec_model.most_similar(target_value, topn=sys.maxsize)
last_10 = list(reversed(all_sims[-10:]))

但是,请注意:

  • 这将需要更多的排序,并且暂时需要更多的内存,才能在将其修剪到最后几张之前返回完整列表

  • 对于文字或文件,这些文字对于人类的感知不太可能特别有意义。也就是说,就我们所知,不可能是单词或文档的“对立”。这种对立面,或者实际上是与原点形成有趣对比的任何单词/文档,通常都将非常接近高维空间中的原点,只是以某种有意义的方式发生了变化。 (例如,一个单词的反义词比找到的最相似的单词更接近该单词。)

© www.soinside.com 2019 - 2024. All rights reserved.