我正在尝试为文档的余弦和欧氏距离创建矩阵。不太确定我将如何处理这个问题。任何意见,将不胜感激。谢谢。
该函数将termdoc矩阵作为输入并计算称为“ euclidean_distance_matrix”的变量和“ cosine_distance_matrix”,它们的元素(i,j)存储欧氏距离的矩阵以及第i个推特和第i个推特之间的余弦距离。您应该将距离矩阵存储在numpy数组中,以便在后续任务中更轻松地实现。
启动我的代码如下。
def compute_distance_matrices(termdoc):
您可以将这个问题视为概率问题。您必须:
频率向量
您将必须为文档中的每个单词计算TF-IDF参数,并将其全部组织在一个向量中。简单来说,TF是频率词,IDF用于平衡高频词。 TF-IDF表示单词在语料库中的重要性。
此链接可能有用:https://en.wikipedia.org/wiki/Tf%E2%80%93idf
余弦距离
应用公式并判断结果:较低的值=相似的文档