如何在R中的大型数据集(15GB)上运行监督的ML模型?

问题描述 投票:0回答:1

我有一个数据集(15 GB):7200万条记录和26个功能。我想比较7个监督的ML模型(分类问题):SVM,随机森林,决策树,朴素贝叶斯,ANN,KNN和XGBoosting。我创建了一个720万条记录的样本集(占整个记录集的10%)。在样本集上运行模型(甚至选择功能)已经是一个问题。它具有非常长的处理时间。我目前仅使用RStudio。

几天来我一直在寻找问题的答案。我尝试了以下操作:-data.table-仍不足以减少处理时间-sparklyr-无法复制我的数据集,因为它太大[]

我正在寻找一种无成本的解决方案。有人可以帮我吗?

我有一个数据集(15 GB):7200万条记录和26个功能。我想比较7个监督的ML模型(分类问题):SVM,随机森林,决策树,朴素贝叶斯,ANN,KNN和...

r large-data feature-selection sparklyr supervised-learning
1个回答
0
投票

您应该查看disk.frame程序包。

© www.soinside.com 2019 - 2024. All rights reserved.