我想写一个非常大的PySpark数据框,下面我在https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html看到的建议
然而,这个页面会显示在Scala中,建议我不知道怎么翻译到PySpark
我看到Scala代码是这样的:
spark.read.table(connRandom)
.write.format("delta").saveAsTable(connZorder)
sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")
但我该怎么办,第二行相当于说ZORDER在PySpark特定列“my_col”集群?
第二行是从给定的Scala SQL命令。你可以用spark.sql("OPTIMIZE tableName ZORDER BY (my_col)")
做相同的蟒蛇。
还需要看看documentation,它有PySpark一个完整的笔记本例子。