鉴于以下预测的文件排名列表:
query1_predicted = [1381, 1637, 646, 1623, 774, 1764, 92, 12, 642, 463, 613, ...]
这个手动标记的最佳选择:
query1_manual = 646
是否有任何合适的信息检索指标已在python中实现以对此结果进行排名?
我不认为NDCG对我有用,因为我错过了真正的,完全排名的文件清单。我假设回忆,精确度,F分数和MAP也不会起作用,只要我没有每个查询的手动排序结果的完整列表,表明文档的相关性。
顺便说一句:预测列表的长度等于我的集合中的文档总数:
len(query1_predicted) = len(documents)
我在这里先向您的帮助表示感谢!
一个想法是结合精度和召回指标。例如,如果您的查询返回一个列表,其中首先是正确的文档,您可以说您的精确度和召回率是100%。如果它位于第二位,则您再次具有100%的精度,但您的召回率降至50%,依此类推。我知道这种方法并不完美,但它可以通过众所周知的指标很好地了解您的结果。