随机森林-使空值在决策树中始终具有自己的分支

问题描述 投票:2回答:1

嗨,我正在使用随机森林来构建模型,并且我试图处理空值。会有人碰巧知道如何强制随机森林模型将空值视为其自己的单独频带吗? (因为空值永远不会与其他值范围捆绑在一起。因此,在决策树中,度量的空值始终具有自己的分支)。

我不想使用均值而不是空值,因为我不希望模型将空值与其他接近均值的值捆绑在一起,我也不想删除空值。

我想要它,以便决策树始终将度量的空值视为其自己的分支。

谢谢:)

python data-science random-forest decision-tree modeling
1个回答
0
投票

您可以尝试这些。

  1. 将空值替换为与该列中任何其他值都大不相同的值。

示例

让'feature'为仅具有正值的列的名称,那么负值应足以满足null。

dataframe.loc[dataframe['feature'].isna(), 'feature'] = -100
  1. 您可以添加一个新的null跟踪列,以跟踪另一列的null值。 (如果考虑将所有功能都用于对随机森林建模,请使用此功能)

示例

让'功能'为具有空值的列的名称

dataframe['feature_isnull'] = 0 #null-tracking column
dataframe.loc[dataframe['feature'].isna(),'feature_isnull'] = 1
© www.soinside.com 2019 - 2024. All rights reserved.