执行正确数据分析的步骤

问题描述 投票:0回答:1

我有一个包含69列和50000行的数据集。我的数据集只包含二进制变量和数值变量。此外,一些二进制变量具有一些缺失值(约5%)。

我知道我应该将数据集划分为列车测试验证然后执行插补(我想使用logreg方法的鼠标)。我对此有一些疑问:

  1. 我应该只在火车上还是在测试和验证集上进行插补?如果没有,我如何填写测试和验证集中的NA?
  2. 我的教授告诉我,我应该减少数据集的维度。我可以用PCA来做这件事吗?在插补之前或之后我是否必须这样做?我是否只能将它应用于火车测试或其他两组?
  3. 此外,我曾试图使用鼠标,但我的数据集速度非常慢(大约需要50分钟来估算我的一半数据)。你知道加快这个过程的方法吗? (我在这个论坛上已经读过像quickpred()这样的方法,但它需要指定最小相关性,我不知道它在我的数据集上有多少。
r missing-data imputation train-test-split
1个回答
0
投票

就个人而言,我会这样做:

  1. 是的,我会在拆分数据集之前估算值。
  2. 在估算数据后我会降低维数,我也会删除接近零的方差预测值。
  3. 我会使用包caretCheck this out。所有这些都可以在train调用中使用像preProcess = c( "nzv","knnImpute","pca")这样的代码行完成
© www.soinside.com 2019 - 2024. All rights reserved.