如何处理应该在Python中丢失的缺失值(不应对NaN进行插值)?

问题描述 投票:-1回答:1

我正在研究一个项目,该项目根据许多变量来模拟人的幸福感变化。

[大多数解释变量是每天的(他们吃了多少食物,每天运动,睡眠等...),但是其中一些是每周的-并且应该每周一次,并且每周都会对预测变量产生影响。 。

例如,每周变量之一是一个人在每周的同一天称体重时体重的变化。

[该数据每周仅提供一次,并且会影响当天该人的幸福。

在那种情况下,有人可以建议我在每周变量无可用数据的日子里如何处理python中丢失的数据吗?

在丢失的日子上推断数据是错误的,因为在没有这些日子的那些每周变量中,该人的幸福完全不受这些幸福的影响。

我创建了一个虚拟对象,当每周数据可用时为1,否则创建为0,但我不知道如何处理丢失的数据。我不能离开NaN,否则python将不会运行回归,但是我不能放0,因为有时在数据可用的当天实际变量值(例如:重量变化)可能为0。

python scikit-learn regression nan missing-data
1个回答
0
投票

SciKit-learn提供了称为Imputers的类,这些类通过遵循用户定义的策略(即,使用默认值,使用列的平均值...)来处理缺失值。如果您不想使训练偏斜,建议您使用统计信息而不是一些任意的默认值。

此外,您可以使用MissingIndicator存储有关哪些值已被估算以及哪些值是自然值的信息。>>

您可以在SciKit-Learn documentation中找到一些示例代码,以了解有关不同Imputer的更多信息>

© www.soinside.com 2019 - 2024. All rights reserved.