如何使用火花统计?

问题描述 投票:0回答:1

我正在使用spark-sql-2.4.1v,并且我试图在给定数据的每一列上找到分位数,即百分位数0,百分位数25等。

我正在执行多个百分位数时,如何从结果中检索每个计算出的百分位数?

这里有一个数据,如下所示:

+----+---------+-------------+----------+-----------+
|  id|     date|total_revenue|con_dist_1| con_dist_2|
+----+---------+-------------+----------+-----------+
|3310|1/15/2018|  0.010680705|         6|0.019875458|
|3310|1/15/2018|  0.006628853|         4|0.816039063|
|3310|1/15/2018|   0.01378215|         4|0.082049528|
|3310|1/15/2018|  0.010680705|         6|0.019875458|
|3310|1/15/2018|  0.006628853|         4|0.816039063|
|3310|1/15/2018|   0.01378215|         4|0.082049528|
|3310|1/15/2018|  0.010680705|         6|0.019875458|
|3310|1/15/2018|  0.010680705|         6|0.019875458|
|3310|1/15/2018|  0.014933087|         5|0.034681906|
|3310|1/15/2018|  0.014448282|         3|0.082049528|
+----+---------+-------------+----------+-----------+

我需要计算“ con_dist_1”,“ con_dist_2”等上的百分位数0,percentile25等

我正在为百分比50做以下操作:

val col_list = Array("con_dist_1","con_dist_2")
val median_col_list = partitioned_data.stat.approxQuantile(col_list, Array(0.5),0.0)
println(median_col_list)

正在给出此结果:

median_col_list: Array[Array[Double]] = Array(Array(4.0), Array(0.034681906))

如何绘制结果?有什么方法可以将结果归于哪一列?请针对上述问题提出任何更好的建议。

scala apache-spark pyspark statistics apache-spark-dataset
1个回答
1
投票

要同时计算多个百分位数,您可以将它们简单地添加到输入到approxQuantile的数组中。例如,对于0、25、50、75和100,您可以按以下步骤进行操作:

val col_list = Array("con_dist_1", "con_dist_2")
val percentiles = Array(0.0, 0.25, 0.5, 0.75, 1.0)
val median_col_list = partitioned_data.stat.approxQuantile(col_list, percentiles, 0.0)

结果现在将是具有所有百分位数的数组的数组。

要知道百分位数对应于哪一列很简单,它取决于col_list的顺序。因此,在这种情况下,median_col_list(0)对应于“ con_dist_1”,median_col_list(1)对应于“ con_dist_1”。遵循相同的比喻,例如median_col_list(1)(2)对应于“ con_dist_1”列的50%。

© www.soinside.com 2019 - 2024. All rights reserved.