我有一个数据集(15 GB):7200万条记录和26个功能。我想比较7个监督的ML模型(分类问题):SVM,随机森林,决策树,朴素贝叶斯,ANN,KNN和XGBoosting。我创建了一个720万条记录的样本集(占整个记录集的10%)。在样本集上运行模型(甚至选择功能)已经是一个问题。它具有非常长的处理时间。我目前仅使用RStudio。
几天来我一直在寻找问题的答案。我尝试了以下操作:-data.table-仍不足以减少处理时间-sparklyr-无法复制我的数据集,因为它太大[]
我正在寻找一种无成本的解决方案。有人可以帮我吗?
我有一个数据集(15 GB):7200万条记录和26个功能。我想比较7个监督的ML模型(分类问题):SVM,随机森林,决策树,朴素贝叶斯,ANN,KNN和...
您应该查看disk.frame
程序包。