Pysaprk 使用 groupBy() 和 colRegex

问题描述 投票:0回答:1

我尝试将 groupBy() 与 colRegex 结合起来 所以我想自动将所有带有后缀“B_”的列和最后一列“Prio”与最大值聚合。

但是不管我怎么尝试,它都不起作用。

df_calc_new = df_calc_new.groupBy((sf.col(colRegex('`B_.*`')) for x in [*df_calc_values_p1.columns])).agg(max(col("Prio")))
pyspark group-by
1个回答
0
投票

你可以简单地用纯Python来做到这一点:

c.startswith("B_") for c in df_calc_values_p1.columns
© www.soinside.com 2019 - 2024. All rights reserved.