我有以下列表列表:
[[1, 1, 1, 1, 3, 0, 0, 1],
[1, 1, 1, 1, 3, 0, 0, 1],
[1, 1, 1, 1, 2, 0, 0, 1],
[1, 1, 0, 2, 3, 1, 0, 1]]
我要计算inter-rater可靠性评分的地方,有多个评分者(行)。我不能使用Fleiss的kappa,因为行的总和不相同。在这种情况下什么是好的方法?
这里的基本问题是您没有正确应用所获得的数据。有关正确的组织结构,请参见here。您有四个类别(等级0-3)和八个主题。因此,您的表必须具有八行四列,而不考虑审阅者的数量。例如,第一行是对第一项的评分汇总:
[0, 4, 0, 0] ... since everyone rated it a `1`.
您的-inf
值是倒数第二列的P [j]分数除以0。
我先前的答案,将分数标准化,是基于对Fleiss的误解;我心目中的可靠性有所不同。有许多方法可以计算这样的指标。一个是相对评级点的一致性(可以通过归一化获得);另一个方法是将每个评估者的行转换为相对排名的图表,并计算这些图表之间的相似度。请注意,Fleiss not