处理不平衡分类数据的模型

问题描述 投票:0回答:1

我正在尝试创建出生缺陷数据的分类模型。目标是确定哪些父亲变量与前 5 种出生缺陷最相关。目标变量“缺陷”有 5 个缺陷类别:88、23、16、32、18,并且数据对于缺陷“88”高度不平衡。我的特征也是分类父亲变量,例如父亲的种族、教育程度、出生地、西班牙裔血统。

估计与出生缺陷患病率最相关的特征的最佳方法或模型是什么? 哪种机器学习算法最适合这种场景?

python machine-learning categorical-data imbalanced-data
1个回答
0
投票

您可以使用SMOTE(合成少数过采样技术);关注 - 不平衡学习

简而言之; SMOTE 的工作原理是选择特征空间中接近的示例,在特征空间中的示例之间绘制一条线,然后在沿该线的一点绘制新样本。

具体来说,首先从少数群体中随机选择一个例子。然后找到该示例的 k 个最近邻居(通常 k=5)。选择随机选择的邻居,并在特征空间中两个示例之间随机选择的点创建合成示例。

来源:https://machinelearningmastery.com/smote-oversampling-for-imbalanced-classification/

© www.soinside.com 2019 - 2024. All rights reserved.