如何内PySpark写三角洲表时使用ZORDER集群?

问题描述 投票:0回答:1

我想写一个非常大的PySpark数据框,下面我在https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html看到的建议

然而,这个页面会显示在Scala中,建议我不知道怎么翻译到PySpark

我看到Scala代码是这样的:

spark.read.table(connRandom)
     .write.format("delta").saveAsTable(connZorder)

sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")

但我该怎么办,第二行相当于说ZORDER在PySpark特定列“my_col”集群?

apache-spark pyspark apache-spark-sql databricks
1个回答
1
投票

第二行是从给定的Scala SQL命令。你可以用spark.sql("OPTIMIZE tableName ZORDER BY (my_col)")做相同的蟒蛇。

还需要看看documentation,它有PySpark一个完整的笔记本例子。

© www.soinside.com 2019 - 2024. All rights reserved.