在Spark中将数据帧转换为rdd的成本

问题描述投票：0回答：1

我正在尝试使用此方法获取数据帧的分区数：

df.rdd.getNumPartitions.toString

但是当我监视火花记录时，我看到它旋转了很多阶段，并且是一项昂贵的操作。

据我了解，数据帧通过元数据为rdd添加了一个结构层。那么，在转换为rdd的同时剥离它要花这么多时间吗？

apache-spark apache-spark-sql rdd

1个回答

0
投票

DataFrame是一种优化的分布式表格集合。由于它保持表格格式（类似于SQL表），因此可以保留元数据以允许Spark在后台进行一些优化。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.