我们可以预测Pyspark中的多个目标变量,就像我们在sklearn中执行MultiOutputClassifier一样吗?
我有一个多个目标变量的数据集
Problem Complexity Skill1 Skill2 Skill3 Skill4 Skill5
0 Pbl1 Low 7 0 2 9 3
1 Pbl2 Medium 0 9 2 0 5
2 Pbl3 Medium 3 1 8 7 1
3 Pbl4 Medium 5 2 6 1 8
4 Pbl5 High 4 7 3 9 0
在这里,我的自变量是'问题和复杂性',我必须预测特定问题的'技能',我的目标变量是'Skill1,Skill2,Skill3,Skill4'
在sklearn中,我们可以直接提及'X'变量和'Y'变量,并通过一次传递获得多列的预测。但是在Pyspark中,我们将所有自变量设置为“要素”,将目标变量设置为“标签”列,并对该数据应用机器学习。
如何在Pyspark中对上述表结构进行多个目标预测?
Spark不提供多目标线性回归。它确实提供了Multinomial Logistic Regression模型;这是一个分类器,所以它不适合你的问题。
你能做的就是为每个技能目标训练一个Linear Regression。