2个数字列表之间的余弦相似度

Question

我需要计算两个列表之间的余弦相似度，例如，列表1是dataSetI，列表2是dataSetII。我不能使用numpy或统计模块等任何东西。我必须使用通用模块（数学等）（尽可能使用最少的模块，以减少花费的时间）。

让我们说dataSetI是[3, 45, 7, 2]和dataSetII是[2, 54, 13, 15]。列表的长度始终相等。

当然，余弦相似度在0和1之间，并且为了它，它将用format(round(cosine, 3))四舍五入到第三或第四个小数。

非常感谢您提前帮助。

Answer 1

你应该尝试SciPy。它有一堆有用的科学例程，例如“用数字计算积分，求解微分方程，优化和稀疏矩阵的例程”。它使用超高速优化的NumPy进行数字运算。请参阅here进行安装。

请注意，spatial.distance.cosine计算距离，而不是相似度。因此，您必须从1中减去该值才能获得相似性。

from scipy import spatial

dataSetI = [3, 45, 7, 2]
dataSetII = [2, 54, 13, 15]
result = 1 - spatial.distance.cosine(dataSetI, dataSetII)

Answer 2

使用numpy将一个数字列表与多个列表（矩阵）进行比较：

def cosine_similarity(vector,matrix):
   return ( np.sum(vector*matrix,axis=1) / ( np.sqrt(np.sum(matrix**2,axis=1)) * np.sqrt(np.sum(vector**2)) ) )[::-1]

Answer 3

你可以使用cosine_similarity函数形式sklearn.metrics.pairwise docs

In [23]: from sklearn.metrics.pairwise import cosine_similarity

In [24]: cosine_similarity([1, 0, -1], [-1,-1, 0])
Out[24]: array([[-0.5]])

Answer 4

另一个版本仅基于numpy

from numpy import dot
from numpy.linalg import norm

cos_sim = dot(a, b)/(norm(a)*norm(b))

Answer 5

我认为这里的表现并不重要，但我无法抗拒。 zip（）函数完全重新复制两个向量（实际上更多的是矩阵转置），只是为了获得“Pythonic”顺序的数据。将螺母和螺栓实施时间计算会很有趣：

import math
def cosine_similarity(v1,v2):
    "compute cosine similarity of v1 to v2: (v1 dot v2)/{||v1||*||v2||)"
    sumxx, sumxy, sumyy = 0, 0, 0
    for i in range(len(v1)):
        x = v1[i]; y = v2[i]
        sumxx += x*x
        sumyy += y*y
        sumxy += x*y
    return sumxy/math.sqrt(sumxx*sumyy)

v1,v2 = [3, 45, 7, 2], [2, 54, 13, 15]
print(v1, v2, cosine_similarity(v1,v2))

Output: [3, 45, 7, 2] [2, 54, 13, 15] 0.972284251712

这就是一次一个地提取元素的C类噪声，但没有批量数组复制，并且在单个for循环中完成所有重要操作，并使用单个平方根。

ETA：更新了打印调用功能。（原文是Python 2.7，而不是3.3。当前在Python 2.7下使用from __future__ import print_function语句运行。）无论哪种方式，输出都是相同的。

3.0GHz Core 2 Duo上的CPYthon 2.7.3：

>>> timeit.timeit("cosine_similarity(v1,v2)",setup="from __main__ import cosine_similarity, v1, v2")
2.4261788514654654
>>> timeit.timeit("cosine_measure(v1,v2)",setup="from __main__ import cosine_measure, v1, v2")
8.794677709375264

因此，在这种情况下，unpythonic方式快约3.6倍。

Answer 6

我根据问题中的几个答案做了一个benchmark，以下片段被认为是最好的选择：

def dot_product2(v1, v2):
    return sum(map(operator.mul, v1, v2))


def vector_cos5(v1, v2):
    prod = dot_product2(v1, v2)
    len1 = math.sqrt(dot_product2(v1, v1))
    len2 = math.sqrt(dot_product2(v2, v2))
    return prod / (len1 * len2)

结果让我感到惊讶的是，基于scipy的实现并不是最快的。我分析并发现scipy中的余弦需要花费大量时间将一个向量从python列表转换为numpy数组。

Answer 7

import math
from itertools import izip

def dot_product(v1, v2):
    return sum(map(lambda x: x[0] * x[1], izip(v1, v2)))

def cosine_measure(v1, v2):
    prod = dot_product(v1, v2)
    len1 = math.sqrt(dot_product(v1, v1))
    len2 = math.sqrt(dot_product(v2, v2))
    return prod / (len1 * len2)

您可以在计算后将其舍入：

cosine = format(round(cosine_measure(v1, v2), 3))

如果你想要它真的很短，你可以使用这个单线：

from math import sqrt
from itertools import izip

def cosine_measure(v1, v2):
    return (lambda (x, y, z): x / sqrt(y * z))(reduce(lambda x, y: (x[0] + y[0] * y[1], x[1] + y[0]**2, x[2] + y[1]**2), izip(v1, v2), (0, 0, 0)))

Answer 8

不使用任何进口

math.sqrt（x）的

可以替换为

x ** .5

不使用numpy.dot（）你必须使用列表理解创建自己的点函数：

def dot(A,B): 
    return (sum(a*b for a,b in zip(A,B)))

然后它只是应用余弦相似性公式的简单问题：

def cosine_similarity(a,b):
    return dot(a,b) / ( (dot(a,a) **.5) * (dot(b,b) ** .5) )

Answer 9

您可以使用简单的函数在Python中执行此操作：

def get_cosine(text1, text2):
  vec1 = text1
  vec2 = text2
  intersection = set(vec1.keys()) & set(vec2.keys())
  numerator = sum([vec1[x] * vec2[x] for x in intersection])
  sum1 = sum([vec1[x]**2 for x in vec1.keys()])
  sum2 = sum([vec2[x]**2 for x in vec2.keys()])
  denominator = math.sqrt(sum1) * math.sqrt(sum2)
  if not denominator:
     return 0.0
  else:
     return round(float(numerator) / denominator, 3)
dataSet1 = [3, 45, 7, 2]
dataSet2 = [2, 54, 13, 15]
get_cosine(dataSet1, dataSet2)

Answer 10

您可以使用此简单函数计算余弦相似度：

def cosine_similarity(a, b):
return sum([i*j for i,j in zip(a, b)])/(math.sqrt(sum([i*i for i in a]))* math.sqrt(sum([i*i for i in b])))

2个数字列表之间的余弦相似度

问题描述投票：82回答：10

10个回答

最新问题

2个数字列表之间的余弦相似度

问题描述 投票：82回答：10

10个回答

最新问题

问题描述投票：82回答：10