我有一个因变量y和6个独立变量。我想从中做出线性回归。我使用sklearn库来做到这一点。
问题是我的一些自变量的相关性大于0.5。所以我不能同时在我的模型中使用它们
我通过互联网搜索但没有找到任何解决方案来选择最佳的自变量集来绘制线性回归并输出已选择的变量。
如果您发现自变量之间存在相关性。你应该考虑删除它们。
我看到你正在使用scikit-learn。如果您不想手动进行任何特征选择,则可以始终使用scikit-learnns feature_selection module中的一种特征选择方法。有很多方法可以自动删除功能,您应该交叉验证以确定哪个最适合您的问题。
您可能正在寻找k倍验证模型。
我们的想法是随机选择您的功能,并有办法相互验证它们。
我们的想法是使用您的数据(k-1)分区上的功能选择来训练您的模型。并针对最后一个分区验证它。您为每个分区执行此操作并获取分数的平均值(例如,MAE / RMSE)
您的分数是一个客观的数字,用于比较您的模型,即您的功能选择