使用用户的个人数据计算相似度?

问题描述 投票:1回答:2

我想使用他们的个人/组织数据,例如部门,公司,站点等,找出哪些用户彼此相似

我具有布尔格式的数据,如下所示:

       Dep1 Dep2 Comp1 Comp2 Site1 Site2
    U1  0    1     0     1     0     1
    U2  1    0     0     1     1     0
    U3  1    0     1     0     1     0
    U4  0    1     0     1     0     1
    U5  0    1     0     1     1     0
    U6  1    0     1     0     0     1

我想选择一个用户并标识与他们相似的其他用户,以便向他们推荐那些相似用户正在使用的软件/硬件。

我研究了余弦和Jaccard的相似性,但是在布尔数据上计算它们时却没有太多帮助。

我使用的是Python,对这门语言并不陌生,但是对Data Analytics和ML来说却是新手。任何建议表示赞赏!

python machine-learning data-science similarity cosine-similarity
2个回答
0
投票

嗯,正如您已经提到的,计算6万个不同用户之间的相似度会非常费力。这将导致一个60k * 60k行的相似度矩阵,对此我怀疑它是否适合您的系统内存。如果可能的话,我会尝试按部门或站点之类对您的用户进行分组(如果可以的话)。然后,只需将用户与组中的用户进行比较,因此您不必将所有60k与其他60k进行比较。


0
投票

建立推荐系统的方法有很多。由于您明确要求余弦相似度,

© www.soinside.com 2019 - 2024. All rights reserved.