随机森林精度是否与Spark中的分区数有关?

问题描述 投票:0回答:1

在Spark中,随机森林分类器的准确性与训练数据占用的分区数量之间有任何关系吗?

例如,我们将训练数据存储在10个分区上,并训练RandomForest分类器(RF1)。然后将训练数据重新划分为20个分区,并训练第二个RandomForest分类器(RF2)。RF1和RF2之间有技术区别吗?

apache-spark random-forest
1个回答
0
投票

这个问题看似合乎逻辑,但实际上是显而易见的:

  • 如果重新分区,通常每次都会更改数据的分布。当获取训练数据时,在N或N + M分区上的相同数据通常不会产生相同的结果。

    val Array(trainingData, testData) = data.randomSplit(Array(0.7, 0.3))

  • 获得培训和测试后,验证数据将以相同的参数使用不同的结果集(非种子方法)。

因此,您正在使用不同的训练数据,因此结果可能会略有不同。

所以简短的答案是肯定的,但是间接地,可能不是您问问题时所想的那样。

© www.soinside.com 2019 - 2024. All rights reserved.