我正在用580mb左右的大数据集训练一个RandomForest分类器,它需要30多分钟的时间来适应.现在当我尝试使用joblib保存模型时,保存的模型需要大约11.1gb的空间.这是正常的吗,或者我可以更有效地保存模型所消耗的空间,因为我正在考虑部署该模型。
因为我有一个同样数据的决策树模型,需要278mb的空间,而它的准确率只低了2%(91%),所以值得使用一个需要这么多空间的模型吗?
这是模型保存代码
from sklearn.externals import joblib
# Save the model as a pickle in a file
joblib.dump(Random_classifier, '/content/drive/My Drive/Random_classifier.pkl')
我是新手,所以不要投票关闭问题,只需留言。我愿意尽快编辑这个问题。
随机森林分类方法在内存中是很昂贵的.尝试降低你的决策树数量,可能会减少一些内存.看来你的数据集也是非常大的,所以我认为它似乎是合法的你的权重大小.另外,我知道有pickle的方式来保存权重,我建议也要检查出来。