按列分组,然后在 pyspark 中按元素对数组列求和

问题描述 投票:0回答:0

嗨,我有一个 pyspark 数据框,形式为:

    CATEGORY    VALUE
0   A           [4, 5, 6]
1   A           [1, 2, 3]
2   B           [7, 8, 9]

我希望我的输出是

    CATEGORY    VALUE
0   A           [5, 7, 9]
1   B           [7, 8, 9]

实际的数据帧是 ~20 亿条记录,每个数组是 ~1500 个元素,所以这需要尽可能高效,我尝试将数组扩展为列,然后 groupby 在我的样本上工作正常,但我需要一个更有效的解决方案完整的数据框。

谢谢!

python pyspark
© www.soinside.com 2019 - 2024. All rights reserved.