Apache Spark中与Scala的相关矩阵?

问题描述 投票:-1回答:1

我是Apache Spark的新手,正在将它用于大学的独立学习。目前,我们有一个包含47列的数据集。我们想在所有列上运行一个相关矩阵,但是根据我们一直在阅读的印象,使用Scala一次只能关联两个列,而不是整个矩阵。看来,使用Python可以将整个矩阵与Apache Spark相关联。这是真的还是我们可以使用Scala?如果任何人有任何指南或论坛帖子,他们可以将我链接到该网站真棒。我一直在浏览Google,但未找到任何内容。

python scala apache-spark matrix correlation
1个回答
0
投票

我相信您应该能够使用ml.stat.Correlationhttps://spark.apache.org/docs/latest/ml-statistics.html#correlation]在Spark中计算相关矩阵。

或者,有一些在火花中手动计算相关矩阵的实现-spark-df-profiling项目的实现是在Python中,但是Scala中的实现应该很容易移植:https://github.com/julioasotodv/spark-df-profiling/blob/master/spark_df_profiling/base.py#L75

© www.soinside.com 2019 - 2024. All rights reserved.