我有一个包含69列和50000行的数据集。我的数据集只包含二进制变量和数值变量。此外,一些二进制变量具有一些缺失值(约5%)。
我知道我应该将数据集划分为列车测试验证然后执行插补(我想使用logreg
方法的鼠标)。我对此有一些疑问:
quickpred()
这样的方法,但它需要指定最小相关性,我不知道它在我的数据集上有多少。就个人而言,我会这样做:
caret
。 Check this out。所有这些都可以在train
调用中使用像preProcess = c( "nzv","knnImpute","pca")
这样的代码行完成