了解余弦相似度和欧氏距离之间的差异

问题描述 投票:0回答:1

我正在使用向量并试图掌握余弦相似度和欧几里得距离之间的区别来测量相似度。

这就是让我困惑的地方:我有两个向量 a 和 b,它们的完美余弦相似度为 1,因为它们指向相同的方向。然而,当我引入另一个向量 c 时,似乎 就欧几里得距离而言,a 更接近 c。

有人可以帮助我理解我们正在谈论什么样的相似性以及在什么情况下我应该倾向于使用欧几里得距离来比较向量?

我相信这个问题取决于我们正在处理的问题或数据。然而,澄清这个主题会对我有所帮助。

machine-learning vector data-science embedding cosine-similarity
1个回答
0
投票

余弦相似度

定义:余弦相似度衡量多维空间中两个非零向量之间夹角的余弦。它的范围从 -1(完全相反)到 1(完全相同),其中 0 通常表示正交(独立)。

解释:它评估向量如何相对于彼此定向,无论其大小如何。具有相同方向的两个向量的余弦相似度为 1,即使它们的大小不同。 使用案例:

  • 文本分析:常用于文本挖掘以比较文档 或文字,其中大小可能不如角度重要 (或方向)。
  • 协同过滤:在推荐系统中, 找到类似的偏好或项目。
  • 幅度不太重要的情况:当数据的方向比幅度更重要时。

欧几里得距离

定义:欧氏距离是欧氏空间中两点之间的“普通”直线距离。对于两个向量,它是连接它们的线段的长度。

解释:它同时考虑向量的大小和方向。它对向量的大小很敏感,因此即使两个向量指向大致相同的方向,大小的巨大差异也会导致更大的距离。

用例:

  • 聚类:在 K-means 等算法中,点之间的实际距离很重要。
  • 图像分析:矢量的大小(像素强度值)很重要。
  • 量级很重要的情况:当矢量的大小/长度很重要时(例如,在物理测量中)。

您的场景,包含向量 a、b 和 c

完美余弦相似度 (1):向量 a 和 b 的余弦相似度为 1,这意味着它们指向完全相同的方向。这没有考虑它们的长度或大小。

欧几里德距离:当使用欧几里德距离比较向量 a 和另一个向量 c 时,发现 a 比 b 更接近 c,这表明虽然 a 和 b 具有相同的方向,但它们的大小不同,并且 c 的大小更接近和/或指向 a 的方向而不是 b 的方向。

在它们之间进行选择

取决于幅度的重要性:如果向量的幅度(多少)与它们指向的方向(哪个方向)同样重要,那么欧几里得距离更合适。

方向相似度与幅度:如果您对两个向量是否指向同一方向更感兴趣(无论它们有多长),那么余弦相似度是更好的选择。

© www.soinside.com 2019 - 2024. All rights reserved.