按列分组，然后在 pyspark 中按元素对数组列求和

嗨，我有一个 pyspark 数据框，形式为：

    CATEGORY    VALUE
0   A           [4, 5, 6]
1   A           [1, 2, 3]
2   B           [7, 8, 9]

我希望我的输出是

    CATEGORY    VALUE
0   A           [5, 7, 9]
1   B           [7, 8, 9]

实际的数据帧是 ~20 亿条记录，每个数组是 ~1500 个元素，所以这需要尽可能高效，我尝试将数组扩展为列，然后 groupby 在我的样本上工作正常，但我需要一个更有效的解决方案完整的数据框。

谢谢！

python pyspark