新文本文档与现有文档列表的余弦相似度

问题描述 投票:0回答:1

我有一个带有相应关键字的1000个文本文档的数据框。我想通过在列表中找到最相似的文档所对应的关键字来提取新文档的关键字。

python text nlp similarity cosine-similarity
1个回答
0
投票

首先将csv保存到数据帧df,然后使用以下函数进行余弦相似度计算。def get_cosine(vec1,vec2):交集= set(vec1.keys())&set(vec2.keys())分子= sum([vec1 [x] * vec2 [x]对于x在交点处])

© www.soinside.com 2019 - 2024. All rights reserved.