我正在研究一个项目,该项目根据许多变量来模拟人的幸福感变化。
[大多数解释变量是每天的(他们吃了多少食物,每天运动,睡眠等...),但是其中一些是每周的-并且应该每周一次,并且每周都会对预测变量产生影响。 。
例如,每周变量之一是一个人在每周的同一天称体重时体重的变化。
[该数据每周仅提供一次,并且会影响当天该人的幸福。
在那种情况下,有人可以建议我在每周变量无可用数据的日子里如何处理python中丢失的数据吗?
在丢失的日子上推断数据是错误的,因为在没有这些日子的那些每周变量中,该人的幸福完全不受这些幸福的影响。
我创建了一个虚拟对象,当每周数据可用时为1,否则创建为0,但我不知道如何处理丢失的数据。我不能离开NaN,否则python将不会运行回归,但是我不能放0,因为有时在数据可用的当天实际变量值(例如:重量变化)可能为0。
SciKit-learn提供了称为Imputers的类,这些类通过遵循用户定义的策略(即,使用默认值,使用列的平均值...)来处理缺失值。如果您不想使训练偏斜,建议您使用统计信息而不是一些任意的默认值。
此外,您可以使用MissingIndicator存储有关哪些值已被估算以及哪些值是自然值的信息。>>
您可以在SciKit-Learn documentation中找到一些示例代码,以了解有关不同Imputer的更多信息>