星期几的单词的星号计数

Question

我有一个数据集

+----------+--------+------------+
|        id|    date|       errors|
+----------+--------+------------+
|1         |20170319|      error1|
|1         |20170319|      error2|
|1         |20170319|      error2|
|1         |20170319|      error1|
|2         |20170319|        err6|
|1         |20170319|       error2|

需要数日错误计数日

产量

+----------+--------+------------+
|    date|       errors| count
+----------+--------+------------+
 |20170319|      error1|    2
 |20170319|      error2|    3
 |20170319|        err6|    1

    val dataset = spark.read.json(path);
    val c =dataset.groupBy("date").count()

//我如何继续计算错误

我尝试在spark scala sql中使用Windowing over date但是找不到生产能力我需要转换为Rdd并找到一种方法。

Answer 1

你只需要groupBy date和errors。

val c =dataset.groupBy("date","errors").count()

星期几的单词的星号计数

问题描述投票：2回答：1

1个回答

最新问题

星期几的单词的星号计数

问题描述 投票：2回答：1

1个回答

最新问题

问题描述投票：2回答：1