机器学习模型依赖于一个特征

问题描述投票：0回答：1

我正在训练一个作物产量预测模型，该模型具有 6 个特征和 2000 条记录的自建数据集。

但是，数据集有偏差，我没有得到准确的结果。我尝试了不同的算法以及一些预处理，但仍然缺乏准确的结果。

这是特征与目标变量（产量（kg））的相关性：

区域：NaN
作物类型：NaN
年份：-0.019087
田地面积（英亩）：0.925150
温度（直流）：0.020016
可用水量（m3）：-0.049801
土壤类型：0.028538
名称：产量（kg），dtype：float64

请为此提出一些解决方案。

python scikit-learn data-preprocessing

1个回答

0
投票

正如社区机器人在评论中提到的，您想强调什么具体问题？

是否只有 FieldArea 具有很强的相关性（但您期望其他变量也具有一定程度的相关性）？如果是这样，您可能需要检查原始数据并确保传感器正确（因为它是自行构建的，我假设您有自定义传感器？）
如果你的原始数据集有偏差，也许你可以尝试欠采样或过采样（处理数据不平衡的常用方法）
由于您的“Region”和“CropType”显示“NaN”，您可能需要尝试 one-hot 编码（或任何其他方法）来处理分类变量并将它们“转换”为数字变量！

希望这有帮助！

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.