我有一个数据库,其中包含有关回购的提交信息。例如
commit-sha1 | file1 |
commit-sha1 | file2 |
commit-sha2 | file2 |
commit-sha2 | file3 |
等等。基本上,显示sha1更改了文件(file1,file2)和sha2更改(file2,file3)现在我想看看是否有一些文件是相关的,即file1和file2一起提交的可能性等等。为此,首先,我找到了最常提交给我的前50个文件
file1 - 1500
file2 - 1423
file3 - 1222..
当Q(f1,f2)<= P(f1)* P(f2)时,我将-1作为d_value,即例如,因为db中没有提交同时包含file1和file3的提交(即Q(file1, file3)= 0),其d_value为-1。现在假设我有文件对的d_value列表,我如何执行层次聚类以查看哪些文件是相关的?我相信python的linkage()API会有所帮助,但我不确定如何将它与这些数据一起使用。任何帮助表示赞赏谢谢