嗨,我有一个 pyspark 数据框,形式为:
CATEGORY VALUE
0 A [4, 5, 6]
1 A [1, 2, 3]
2 B [7, 8, 9]
我希望我的输出是
CATEGORY VALUE
0 A [5, 7, 9]
1 B [7, 8, 9]
实际的数据帧是 ~20 亿条记录,每个数组是 ~1500 个元素,所以这需要尽可能高效,我尝试将数组扩展为列,然后 groupby 在我的样本上工作正常,但我需要一个更有效的解决方案完整的数据框。
谢谢!