我有一个带有相应关键字的1000个文本文档的数据框。我想通过在列表中找到最相似的文档所对应的关键字来提取新文档的关键字。
首先将csv保存到数据帧df,然后使用以下函数进行余弦相似度计算。def get_cosine(vec1,vec2):交集= set(vec1.keys())&set(vec2.keys())分子= sum([vec1 [x] * vec2 [x]对于x在交点处])