在Spark中将数据帧转换为rdd的成本

问题描述 投票:0回答:1

我正在尝试使用此方法获取数据帧的分区数:

df.rdd.getNumPartitions.toString

但是当我监视火花记录时,我看到它旋转了很多阶段,并且是一项昂贵的操作。enter image description here

据我了解,数据帧通过元数据为rdd添加了一个结构层。那么,在转换为rdd的同时剥离它要花这么多时间吗?

apache-spark apache-spark-sql rdd
1个回答
0
投票

DataFrame是一种优化的分布式表格集合。由于它保持表格格式(类似于SQL表),因此可以保留元数据以允许Spark在后台进行一些优化。

© www.soinside.com 2019 - 2024. All rights reserved.