Spark中的多输出分类

问题描述 投票:-1回答:1

我们可以预测Pyspark中的多个目标变量,就像我们在sklearn中执行MultiOutputClassifier一样吗?

我有一个多个目标变量的数据集

    Problem     Complexity  Skill1  Skill2  Skill3  Skill4  Skill5
0   Pbl1        Low            7      0       2       9      3
1   Pbl2        Medium         0      9       2       0      5
2   Pbl3        Medium         3      1       8       7      1
3   Pbl4        Medium         5      2       6       1      8
4   Pbl5        High           4      7       3       9      0

在这里,我的自变量是'问题和复杂性',我必须预测特定问题的'技能',我的目标变量是'Skill1,Skill2,Skill3,Skill4'

在sklearn中,我们可以直接提及'X'变量和'Y'变量,并通过一次传递获得多列的预测。但是在Pyspark中,我们将所有自变量设置为“要素”,将目标变量设置为“标签”列,并对该数据应用机器学习。

如何在Pyspark中对上述表结构进行多个目标预测?

python pyspark classification apache-spark-ml
1个回答
0
投票

Spark不提供多目标线性回归。它确实提供了Multinomial Logistic Regression模型;这是一个分类器,所以它不适合你的问题。

你能做的就是为每个技能目标训练一个Linear Regression

© www.soinside.com 2019 - 2024. All rights reserved.