计算Spark DataFrame中每列的内核密度

问题描述 投票:0回答:1

有没有办法计算DataFrame每列的KDE?

我有一个DataFrame,其中每列代表一个功能的值。 Spark MLLib的KDE功能需要RDD[Double]的样本值。问题是我需要找到一种方法而不收集每列的值,因为这会使程序变慢。

有谁知道如何解决这个问题?可悲的是,我所有的尝试都失败了。

apache-spark apache-spark-mllib
1个回答
-1
投票

您可以使用样本函数(refer here)创建新的RDD,然后执行操作以获得最佳性能。

© www.soinside.com 2019 - 2024. All rights reserved.