给定一个具有 2 个输入数字特征和一个等级的数字数据集。例如:项目
i
应该比项目 j
表现更好,因此排名为 r_i
< r_j
(r 是排名)。
f1 | f2 | 排名 |
---|---|---|
a1 | b1 | 1 |
a2 | b2 | 2 |
目标是训练一个回归模型,根据给定的顺序估计
[0, 10]
范围内的分数,因此,如果排名为 i
的项目 r_i
优于排名为 j
的项目 r_j
,那么score(i) > score(j)
。
训练后的模型还需要用于对未见过的实体进行评分。
建议的解决方案如下:
[0, 10]
。n
的实体得分为 0。f1 | f2 | 排名 | 分数 |
---|---|---|---|
a1 | b1 | 1 | n |
a2 | b2 | 2 | n-1 |
该解决方案表现良好,除了模型学习的关系在某种程度上是线性的,假设每两个项目之间的差异相等(因为别名初始分数基于有序排名),那么我们如何推广这个解决方案如果训练集是有序的但有间隙?
换句话说,如果训练集是
A, B, C, D, E, F
,但A
和B
之间的差异远大于B
和C
,我们如何构建初始别名评分并训练回归模型?
编辑:测试了存在间隙的位置的移动等级,但结果是一条断线,需要的是平滑过渡:
您要求模型学习您在培训中未提供的信息。 如果您希望模型根据性能学习代表性分数,则应该对训练数据进行代表性评分