我正在从 ChatGPT API 中提取与单词列表相对应的单词嵌入。我想知道是否有一种类似于Gensimmost_similar方法来提取整个模型中与我想要的术语最相似的n个单词。
是的,如果您有 Gensim 词向量模型,您可以使用
.most_similar()
方法来获取与所提供的目标词/向量最相似的词的报告。
Gensim 文档中详细解释了用法:
例如,您可以提供一个单词:
similars = kv_model.most_similar('apple')
您还可以提供一个单词列表作为命名的
positive
参数,它将返回与正面示例的平均向量最相似的单词:
similars = kv_model.most_similar(positive=['apple', 'orange', 'melon')])
您可以使用
top_n
参数返回多于或少于默认 10 个最近邻居。