使用用户的个人数据计算相似度？

Question

我想使用他们的个人/组织数据，例如部门，公司，站点等，找出哪些用户彼此相似

我具有布尔格式的数据，如下所示：

       Dep1 Dep2 Comp1 Comp2 Site1 Site2
    U1  0    1     0     1     0     1
    U2  1    0     0     1     1     0
    U3  1    0     1     0     1     0
    U4  0    1     0     1     0     1
    U5  0    1     0     1     1     0
    U6  1    0     1     0     0     1

我想选择一个用户并标识与他们相似的其他用户，以便向他们推荐那些相似用户正在使用的软件/硬件。

我研究了余弦和Jaccard的相似性，但是在布尔数据上计算它们时却没有太多帮助。

我使用的是Python，对这门语言并不陌生，但是对Data Analytics和ML来说却是新手。任何建议表示赞赏！

Answer 1

嗯，正如您已经提到的，计算6万个不同用户之间的相似度会非常费力。这将导致一个60k * 60k行的相似度矩阵，对此我怀疑它是否适合您的系统内存。如果可能的话，我会尝试按部门或站点之类对您的用户进行分组（如果可以的话）。然后，只需将用户与组中的用户进行比较，因此您不必将所有60k与其他60k进行比较。

Answer 2

建立推荐系统的方法有很多。由于您明确要求余弦相似度，

使用用户的个人数据计算相似度？

问题描述投票：1回答：2

2个回答

最新问题

使用用户的个人数据计算相似度？

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2