我有一个 pyspark 数据框,它执行多个 groupby、pivot 类型的转换,当我在应用所有提到的转换后获得最终数据框时。通过分区将 df 以 parquet 形式写回
执行需要接近 1.67 小时 不。节点 * 编号每个节点的核心数 * 1 = 10 * 32 * 1
df.repartition(320)
df.write.partitionBy('year').mode('overwrite').parquet.path(PATH)
此外,我也尝试删除 repartition,即使它或多或少需要相同的时间。
一些建议是