为什么是上位取样而不是下位取样?[不公开]

问题描述 投票:0回答:1

我有一个191个样本的数据,并创建了一个逻辑回归。我首先使用原始数据运行了模型,然后进行了上采样。

  1. 为什么要先进行上采样再进行下采样,或者同时进行上采样和下采样。
  2. 如果upsampling产生了过度拟合的问题,那么它可以用数据的缩放来处理。
  3. 在向上取样或其他取样之后,有哪些参数是我必须研究的,以便我继续进行另一个取样,例如向下取样或上下取样?

我恳请有人能帮助我理解上述问题。

machine-learning statistics logistic-regression
1个回答
0
投票
  1. 下采样总是意味着信息的损失,这就是为什么一般情况下最好避免下采样。
  2. 缩放实际上是最好的选择。通常情况下,数据是上采样的,因为与大多数数据相比,它在数据中的代表性不足。由于很多算法都试图将经验风险--误分类的概率--降到最低,所以他们更多关注的是多数数据。upsamplingdownsampling的原因是比,因为要么是训练数据中的代表性不强,要么是少数派数据的误分类成本要高得多,比如在预测维护中。纠正这种情况的最好方法其实是成本矩阵。但是,由于不少算法并没有一个成本函数的外在机理,upsamplingdownsampling经常被用作近似。因此,只有在采样过程中可以引入额外的 "噪声 "时,才会首选上采样。
  3. 标准验证
© www.soinside.com 2019 - 2024. All rights reserved.