我正在训练一个作物产量预测模型,该模型具有 6 个特征和 2000 条记录的自建数据集。
但是,数据集有偏差,我没有得到准确的结果。我尝试了不同的算法以及一些预处理,但仍然缺乏准确的结果。
这是特征与目标变量(产量(kg))的相关性:
请为此提出一些解决方案。
正如社区机器人在评论中提到的,您想强调什么具体问题?
是否只有 FieldArea 具有很强的相关性(但您期望其他变量也具有一定程度的相关性)? 如果是这样,您可能需要检查原始数据并确保传感器正确(因为它是自行构建的,我假设您有自定义传感器?)
如果你的原始数据集有偏差,也许你可以尝试欠采样或过采样(处理数据不平衡的常用方法)
由于您的“Region”和“CropType”显示“NaN”,您可能需要尝试 one-hot 编码(或任何其他方法)来处理分类变量并将它们“转换”为数字变量!
希望这有帮助!