我有一个数据集,我有360 samples
的class 0
和44 samples
只有class 1
。当我使用KNN model
将k=3
拟合到数据时,模型将大量样本错误分类为class 0
。处理这种不均匀采样数据的最佳方法是什么?我可以设置k=1
但是从我读过的内容会产生一种具有强烈效果的噪音。
查看CrossValidated上的this discussion,尤其是第三个答案。例如,提到的一种方法是通过“类大小的倒数”来衡量邻居。在你的k=3
示例中,这意味着在两个最近邻居是class 0
,一个最近邻居是class 1
的情况下,标签将是class 1
,因为1/44> 2/360。这只是一种方法,您可以在上面讨论的讨论中查看更多方法。我希望这有帮助!