SO中文参考
首页
(current)
程序语言
c
java
python
c++
go
javascript
swift
c#
操作系统
linux
ubuntu
centos
unix
数据库
oracle
mysql
mongodb
postgresql
框架
node.js
angular
react-native
avalon
django
twisted
hadoop
.net
移动开发
android
ios
搜索
为什么是上位取样而不是下位取样?[不公开]
问题描述
投票:0
回答:1
我有一个191个样本的数据,并创建了一个逻辑回归。我首先使用原始数据运行了模型,然后进行了上采样。
为什么要先进行上采样再进行下采样,或者同时进行上采样和下采样。
如果upsampling产生了过度拟合的问题,那么它可以用数据的缩放来处理。
在向上取样或其他取样之后,有哪些参数是我必须研究的,以便我继续进行另一个取样,例如向下取样或上下取样?
我恳请有人能帮助我理解上述问题。
machine-learning
statistics
logistic-regression
1个回答
0
投票
下采样总是意味着信息的损失,这就是为什么一般情况下最好避免下采样。
缩放实际上是最好的选择。通常情况下,数据是上采样的,因为与大多数数据相比,它在数据中的代表性不足。由于很多算法都试图将经验风险--误分类的概率--降到最低,所以他们更多关注的是多数数据。upsamplingdownsampling的原因是比,因为要么是训练数据中的代表性不强,要么是少数派数据的误分类成本要高得多,比如在预测维护中。纠正这种情况的最好方法其实是成本矩阵。但是,由于不少算法并没有一个成本函数的外在机理,upsamplingdownsampling经常被用作近似。因此,只有在采样过程中可以引入额外的 "噪声 "时,才会首选上采样。
标准验证
最新问题
如何接受 Guid 作为 Blazor Server 中的输入类型
如何在ArrayList中的特定位置插入对象
开发Jmix自定义UI DB交互
使用 python-pptx 时如何获取组内形状的正确左侧位置?
OCI 无效操作ORA-01010
Environment.SpecialFolder.CommonApplicationData 返回程序文件/应用程序文件夹
使用 JPA buddy 在 ORACLE 数据库上创建架构
CMake >= 3.28 和 C++20 模块入门
如何停止 docker 容器以获取 NYC 报告。睡觉没用
Python 代码的计算未返回预期结果
如何用 Flutter 设计这样的卡片
如何将 React Native Amplify 项目的后端连接到移动商店上托管的前端?
Java读取包含int string int int double的.dat文件
当您使用 .html() 删除元素时,jQuery 中的事件侦听器是否会自动删除?
如何在 CANoe/CAPL 中包含 .h 或 .dll 文件
C++ 中的模板友元函数
如何在 debian 中安装 ansible-core 2.16
无法将字符串与 UNIQUEIDENTIFIER 进行比较
如何通过显式指定参数类型找到 IEnumerable<T>.ToList() 方法,然后使用自定义参数类型调用它
为什么我不先将 Java 小程序转换为 Kotlin 就不能直接在 Android Studio 中运行?
© www.soinside.com 2019 - 2024. All rights reserved.