如何内PySpark写三角洲表时使用ZORDER集群？

Question

我想写一个非常大的PySpark数据框，下面我在https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html看到的建议

然而，这个页面会显示在Scala中，建议我不知道怎么翻译到PySpark

我看到Scala代码是这样的：

spark.read.table(connRandom)
     .write.format("delta").saveAsTable(connZorder)

sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")

但我该怎么办，第二行相当于说ZORDER在PySpark特定列“my_col”集群？

Answer 1

第二行是从给定的Scala SQL命令。你可以用spark.sql("OPTIMIZE tableName ZORDER BY (my_col)")做相同的蟒蛇。

还需要看看documentation，它有PySpark一个完整的笔记本例子。

如何内PySpark写三角洲表时使用ZORDER集群？

问题描述投票：0回答：1

1个回答

最新问题

如何内PySpark写三角洲表时使用ZORDER集群？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1