我认为对此的一个好的解决方案是在没有组功能的情况下训练您的模型。
S.O。社区-如果有人可以寻求机器学习问题的解决方案,将不胜感激:
我希望能够应用基于其“组”内其他实例为每个实例分配分类的机器学习算法。该模型学习的特征导致将“ 1”分类为该组中最强的特征,而将其他分类归为“ 0”(或更理想的是将softmax概率输出总计为1)。
实例可能具有与其他组中的其他实例不同的不必要的功能,但它们是该组中更强大的指标
即使用类似于以下数据的数据,我如何获取模型以大致了解哪些特征导致了“ 1”分类,但仅基于组中其他实例的其他特征来确定标签]
训练集
feat1 feat2 feat3 feat4 group label 0 1 2 yes cat1 1 0 1 3 4 no cat4 1 0 2 2 6 yes cat3 1 0 3 4 8 yes cat2 1 1 4 14 10 no cat4 2 0 5 10 12 yes cat1 2 0 6 12 12 no cat2 2 0 7 18 11 yes cat4 2 1 8 16 15 no cat5 2 0
测试集
feat1 feat2 feat3 feat4 group label (softmax output) 0 1 2 yes cat2 3 0 0.15 1 6 4 no cat4 3 0 0.07 2 4 2 yes cat2 3 0 0.34 3 2 3 yes cat2 3 1 0.44
即,模型将为每个“组”中的一个实例分配一个“ 1”,为其余部分(或所有实例的概率)分配“ 0”
我最接近的是多实例学习,但这导致了组的分类,而不是组内的实例。
我认为我要实现的目标的简单解释是:使用一组功能来确定一组项目中的哪个项目最有可能被标记,并分别评估了该组的每个项目。我想这类似于预测每个参与者都有一堆属性的比赛,而只有在评估了每个参与者及其属性后才能预测结果(获胜者)。
任何帮助将不胜感激。
ps。爱这个社区,如果没有它,我将无法在分析世界中走得更远!
pps。只是为了澄清-需要对每个小组进行评估以进行培训,而不是以传统的实例方式进行培训。即。您可以在一组低质量的实例中有一个中等质量的实例,并且中等质量的实例应产生“ 1”(或最高概率)输出。相同的中等质量实例可能在一组高质量实例中,因此应归类为“ 0”(或最低概率)输出。传统的逐个实例分类模型将简单地为这个中等质量的实例分配完全相同的分类,但是我正在查找分配给它的组中的“状态”!
S.O。社区-如果有人可以寻求机器学习问题的解决方案,将不胜感激:我希望能够应用分配......>
我认为对此的一个好的解决方案是在没有组功能的情况下训练您的模型。
正如我在您的数据中看到的那样,要素的值受组要素的限制,因此它们的比例不同。要使用所有数据训练模型,您将需要按组划分数据,然后对其进行规范化,以将所有要素放到相同的比例。
将数据标准化后,您可以在没有分组功能的情况下训练模型。在预测阶段时,对测试数据执行相同的归一化过程(按组划分并归一化),然后获得每个组的最大概率。
我认为对此的一个好的解决方案是在没有组功能的情况下训练您的模型。