在过去的几个月中,我一直在使用Spark进行数据清理工作。在大多数情况下,它只是过滤或一些简单的聚合。
最近,我发现可以使用HQL在Hive中完成大部分任务。但是我发现很难执行map
,尤其是使用Hive进行flatmap
。
在某种意义上,类似于select
的操作是map
操作,但是如果flatmap
会怎样?
有人可以给一些提示吗?
谢谢。
以有限的方式,侧视图(https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView)可以绘制平面图。