多评分者数据的评分者间可靠性计算

Question

我有以下列表列表：

[[1, 1, 1, 1, 3, 0, 0, 1],
 [1, 1, 1, 1, 3, 0, 0, 1],
 [1, 1, 1, 1, 2, 0, 0, 1],
 [1, 1, 0, 2, 3, 1, 0, 1]]

我要计算inter-rater可靠性评分的地方，有多个评分者（行）。我不能使用Fleiss的kappa，因为行的总和不相同。在这种情况下什么是好的方法？

Answer 1

这里的基本问题是您没有正确应用所获得的数据。有关正确的组织结构，请参见here。您有四个类别（等级0-3）和八个主题。因此，您的表必须具有八行四列，而不考虑审阅者的数量。例如，第一行是对第一项的评分汇总：

[0, 4, 0, 0]   ... since everyone rated it a `1`.

您的-inf值是倒数第二列的P [j]分数除以0。

我先前的答案，将分数标准化，是基于对Fleiss的误解；我心目中的可靠性有所不同。有许多方法可以计算这样的指标。一个是相对评级点的一致性（可以通过归一化获得）；另一个方法是将每个评估者的行转换为相对排名的图表，并计算这些图表之间的相似度。请注意，Fleiss

not

完全适用于具有相对度量的rating情况：它假定这是分类任务，而不是排名。 Fleiss对评级之间的差距并不敏感；它只知道等级不同：（0,1）配对与（0,3）配对一样有害。

Answer 2

1
投票

此问题的答案是使用krippendorff alpha分数：