余弦相似度以检索相似和不同的文档

问题描述 投票:-1回答:1

我想比较两列之间的文档,并将匹配的文档排列在不同的数据框中。我无法获得类似的代码,因此寻求帮助。我用过一堆单词和tf-idf。请帮助我使用余弦相似度代码。谢谢。 enter image description here

python pandas cosine-similarity
1个回答
0
投票

如果要计算两个矢量(编码文档)之间的余弦距离,请尝试:

from scipy import spatial

vector1 = [1, 1, 3]
vector2 = [3, 5, 1]

cosine_similarity = spatial.distance.cosine(vector1, vector2)

print(cosine_similarity)

结果:

0.43938808941861185

您可以将余弦距离应用于相似度矩阵:

cosine_sim_matrix = cosine_similarity(matrix)

© www.soinside.com 2019 - 2024. All rights reserved.