Zeppelin - 两次相同的show（），两个不同的结果

Question

我是Zeppelin的新手，也许我的问题很天真。首先，我得到这样的基本数据：

import org.apache.spark.sql.functions.sql
val dfOriginal = sql("SELECT CAST(event_type_id AS STRING), event_time  FROM sl_event SORT BY event_time LIMIT 200")

+-------------+--------------------+ 
|event_type_id| event_time| 
+-------------+--------------------+ 
| 23882|2018-05-03 11:41:...| 
| 23882|2018-05-03 11:41:...| 
| 23882|2018-05-03 11:41:...| 
| 25681|2018-05-03 11:41:...| 
| 23882|2018-05-03 11:41:...| 
| 2370|2018-05-03 11:41:...| 
| 23882|2018-05-03 11:41:...|
...

我有200条这样的唱片。

我计算偶数类型的出现次数：

val dfIndividual = dfOriginal.groupBy("event_type_id").count().sort(-col("count"))
dfIndividual.show(200)

我很困惑：每当我执行此操作（在Zeppelin中）时，我会得到不同的结果。例如：

+-------------+-----+
|event_type_id|count| 
+-------------+-----+ 
| 24222| 30| 
| 10644| 16| 
| 21164| 9|
...

或者 - 几秒钟之后：

+-------------+-----+ 
|event_type_id|count| 
+-------------+-----+ 
| 5715| 34| 
| 3637| 19| 
| 3665| 17| 
| 9280| 13|
...

这两个结果之间的差异让我很害怕。问题出在哪儿？是齐柏林飞艇吗？底层火花？如何确保我在这里获得可重复的结果？

Answer 1

我能想到的唯一原因是

a）源表sl_event在此期间发生了变化。由于您未在结果中缓存，因此您调用的任何操作（例如show）都将重新评估所有内容

或者b）你有许多相同的event_time事件，所以event_time limit 200的订单不会给你一致的结果，在你的第一个查询中尝试SORT BY event_time, event_type_id LIMIT 200，或者甚至更好地使用你的第二个订购列的唯一ID

Zeppelin - 两次相同的show（），两个不同的结果

问题描述投票：0回答：1

1个回答

最新问题

Zeppelin - 两次相同的show（），两个不同的结果

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1