我正在研究一个电信数据集,我需要拟合一个模型来预测客户流失(是或否)。有大量分类数据存在缺失值(总计 7043 个)。在这种情况下处理缺失数据的最佳方法是什么,是忽略它还是使用其他更好的插补方法更好?
Data columns (total 21 columns):
customerID 7043 non-null object
gender 7043 non-null object
Age 7043 non-null int64
Partner 7043 non-null object
Dependents 7043 non-null object
tenure 7043 non-null int64
PhoneService 7043 non-null object
MultipleLines 6500 non-null object
InternetService 6500 non-null object
OnlineSecurity 7043 non-null object
OnlineBackup 7043 non-null object
DeviceProtection 7043 non-null object
TechSupport 7043 non-null object
StreamingTV 6500 non-null object
StreamingMovies 6500 non-null object
Contract 6500 non-null object
PaperlessBilling 7043 non-null object
PaymentMethod 6500 non-null object
MonthlyCharges 7043 non-null float64
TotalCharges 7043 non-null object
Churn 7043 non-null object
根据我作为数据科学家的个人经验,我想说有很多方法可以处理丢失的数据。您可以查看此链接以获取更多提示:https://towardsdatascience.com/7-ways-to-handle-missing-values-in-machine-learning-1a6326adf79e。
观察您的数据集后,我将分阶段处理缺失值问题:
您可以在这里很好地阅读不同的技术。每个数据科学家可能会以不同的方式处理缺失值。作为一名数据科学家,您应该为它们做好准备,因为它们会留下来。