文件相似功能

问题描述 投票:0回答:1

我正在尝试为文档的余弦和欧氏距离创建矩阵。不太确定我将如何处理这个问题。任何意见,将不胜感激。谢谢。

该函数将termdoc矩阵作为输入并计算称为“ euclidean_distance_matrix”的变量和“ cosine_distance_matrix”,它们的元素(i,j)存储欧氏距离的矩阵以及第i个推特和第i个推特之间的余弦距离。您应该将距离矩阵存储在numpy数组中,以便在后续任务中更轻松地实现。

启动我的代码如下。

def compute_distance_matrices(termdoc):
python function similarity euclidean-distance cosine-similarity
1个回答
0
投票

您可以将这个问题视为概率问题。您必须:

  1. 构造每个文档的频率向量
  2. 计算文档之间的余弦或欧式距离

频率向量

您将必须为文档中的每个单词计算TF-IDF参数,并将其全部组织在一个向量中。简单来说,TF是频率词,IDF用于平衡高频词。 TF-IDF表示单词在语料库中的重要性。

此链接可能有用:https://en.wikipedia.org/wiki/Tf%E2%80%93idf

余弦距离

应用公式并判断结果:较低的值=相似的文档

此链接可能有用:https://en.wikipedia.org/wiki/Cosine_similarity

© www.soinside.com 2019 - 2024. All rights reserved.