KNN随机子空间分类器中的邻居数

KNN随机子空间分类器中的邻居数

问题描述投票：0回答：1

我使用KNN作为基于随机子空间方法的集合的学习者构建了一个分类器模型。

我有三个预测变量，其维数为541个样本，我开发了一个优化程序来找到最佳k（邻居数）。我选择了最大化分类器AUC的k，其性能通过10倍交叉验证来计算。对于每个单独的弱学习者来说，最佳k的结果是269（由于类似的优化，结果是60）。

现在，我的问题是：269个邻居太多了吗？我相信优化的结果，但我从未使用过这么多邻居，我担心过度拟合。

MP，提前谢谢你

cross-validation

knn

ensemble-learning

neighbours

1个回答

1
投票

k-NN中k值的选择与数据有关。我们可以争论更小或更大的k值选择的更一般的特征，但是将某个数字指定为好/坏并不是非常准确。因此，如果您的CV实施是正确的，您可以信任结果并进一步使用它，因为CV将为您的特定情况提供最佳结果。对于更多的一般性讨论，我们可以说这些关于k值的选择：

1-较小的k值选择：小的k值选择可能会提高整体精度并降低实施成本，但会使系统对噪声输入的鲁棒性降低。

2-更大的k值选择：更大的k值选择将使系统对抗噪声输入更加稳健，但与较小的k值相比，执行成本更高，决策边界更弱。

在应用程序中选择k值时，您始终可以比较这些一般特征。但是，使用像CV这样的算法选择最佳值会给你一个明确的答案。