我有一个数据框,有4列qazxsw poi,qazxsw poi,qazxsw poi和co1
。我需要:
col2
和col3
对数据帧进行分组col4
和col1
,并显示col2
和col3
的计数。输入
col4
产量
col3
这可能吗?
这种情况适合col4
操作。你可以使用col1 col2 col3 col4
1 1 2 4
1 1 2 4
1 1 3 5
提供的实现作为col1 col2 col_name col_value cnt
1 1 col3 2 2
1 1 col3 3 1
1 1 col4 4 2
1 1 col4 5 1
到melt
。
ahue
这是一种适用于任意数量的键列和值列的方法(请注意,示例数据集已经扩展用于说明目的):
an answer
我们可以使用groupBy和union来实现这一点。
How to melt Spark DataFrame?