如何获得顶部的二元分类问题的影响因素

问题描述 投票:0回答:1

我有一个二元分类问题,约30的功能和最终的合格/不合格标签。我第一次训练的分类,以便能够预测,如果新的实例将通过或失败,但现在我想更深入的了解。

我怎样才能得到关于为什么这些项目根据其功能通过或不通过一定的分析?我非常希望能够展现顶级的影响因素与每一个相关的权重。复杂的,这是我的特点不一定是统计相互独立的。我应该考虑什么样的方法,什么样的关键字将指向我朝着正确的方向吗?

一些初步的想法:利用决策树分类(ID3或CART),并期待在树顶端因素的顶部。我不知道这种方法是如何强大的是,它不是立即清楚,我怎么可以指定每个因素的重要性(一个只想得到一个有序列表)。

machine-learning classification data-science decision-tree feature-selection
1个回答
1
投票

如果我没有理解你的目标,你可能要考虑一个Random Forest model。随机森林有凭借的算法如何工作自然提供的功能的重要优势。

在Python的scikit学习,看看sklearn.ensemble.RandomForestClassifier()feature_importances_将返回“砝码”我相信你正在寻找。退房的例子在documentation

另外,您均可以使用的randomForest包。构建模型后,您可以使用importance()提取特征重要性值。

© www.soinside.com 2019 - 2024. All rights reserved.