机器学习模型依赖于一个特征

问题描述 投票:0回答:1

我正在训练一个作物产量预测模型,该模型具有 6 个特征和 2000 条记录的自建数据集。

但是,数据集有偏差,我没有得到准确的结果。我尝试了不同的算法以及一些预处理,但仍然缺乏准确的结果。

这是特征与目标变量(产量(kg))的相关性:

  • 区域:NaN
  • 作物类型:NaN
  • 年份:-0.019087
  • 田地面积(英亩):0.925150
  • 温度(直流):0.020016
  • 可用水量(m3):-0.049801
  • 土壤类型:0.028538
  • 名称:产量(kg),dtype:float64

请为此提出一些解决方案。

python scikit-learn data-preprocessing
1个回答
0
投票

正如社区机器人在评论中提到的,您想强调什么具体问题?

  1. 是否只有 FieldArea 具有很强的相关性(但您期望其他变量也具有一定程度的相关性)? 如果是这样,您可能需要检查原始数据并确保传感器正确(因为它是自行构建的,我假设您有自定义传感器?)

  2. 如果你的原始数据集有偏差,也许你可以尝试欠采样或过采样(处理数据不平衡的常用方法)

  3. 由于您的“Region”和“CropType”显示“NaN”,您可能需要尝试 one-hot 编码(或任何其他方法)来处理分类变量并将它们“转换”为数字变量!

希望这有帮助!

© www.soinside.com 2019 - 2024. All rights reserved.