如何证明NDCG得分显著

Question

假设NDCG得分为我的检索系统是0.8。我该如何解读这个分数。我如何告诉读者，这个分数是显著？

Answer 1

该NDCG是排名指标。在信息检索领域，你应该预测的文件排序列表，并与相关文档的列表进行比较。试想一下，你预测的1000个文件排序列表，并有100个相关文件，该NDCG等于当100个相关的文档在列表中的100个最高级别达到1。

所以0.8 NDCG是最好名次的80％。

这是一个直观的解释，真正的数学包括了一些对数，但至今没有从这个。

Answer 2

要理解这让检查归一化贴现累计收益的例子（NDCG）对于NDCG我们需要DCG和理想的DCG（IDCG）让我们明白什么是累计收益（CG）第一，

Example: Suppose we have [Doc_1, Doc_2, Doc_3, Doc_4, Doc_5]
Doc_1 is 100% relevant
Doc_2 is 70% relevant
Doc_3 is 95% relevant
Doc_4 is 20% relevant
Doc_5 is 100% relevant

因此，我们的累计收益（CG）是

CG = 100 + 70 + 95 + 20 + 100  ###(Index of the doc doesn't matter)
   = 385

和贴现累计收益（DCG）是

DCG = SUM( relivencyAt(index) / log2(index + 1) ) ###where index 1 -> 5

Doc_1 is 100 / log2(2) = 100.00
Doc_2 is 70  / log2(3) = 044.17
Doc_3 is 95  / log2(4) = 047.50
Doc_4 is 20  / log2(5) = 008.61
Doc_5 is 100 / log2(6) = 038.69

DCG = 100 + 44.17 + 47.5 + 8.61 + 38.69
DCG = 238.97

而理想的DCG是

IDCG = Doc_1 , Doc_5, Doc_3, Doc_2, Doc_4

Doc_1 is 100 / log2(2) = 100.00
Doc_5 is 100 / log2(3) = 063.09
Doc_3 is 95  / log2(4) = 047.50
Doc_2 is 75  / log2(5) = 032.30
Doc_4 is 20  / log2(6) = 007.74

IDCG = 100 + 63.09 + 47.5 + 32.30 + 7.74
IDCG = 250.63

nDCG(5) = DCG    / IDCG
        = 238.97 / 250.63
        = 0.95

结论：

在给定示例NDCG为0.95，0.95不是预测精度，0.95是该文件有效的排名。因此，增益从结果列表中的顶部到底部累积，以更低的折扣行列每个结果的增益。 Wiki reference

Answer 3

如果你有比较大的样本，您可以用人工重复采样来计算置信区间，这将显示您的NDCG分数是否显著大于零更好。

此外，您还可以使用成对的人工重复采样，以显著您NDCG分数与其他系统的NDCG得分比较

如何证明NDCG得分显著

问题描述投票：4回答：3

3个回答

最新问题

如何证明NDCG得分显著

问题描述 投票：4回答：3

3个回答

最新问题

问题描述投票：4回答：3