我正在尝试使用此方法获取数据帧的分区数:
df.rdd.getNumPartitions.toString
但是当我监视火花记录时,我看到它旋转了很多阶段,并且是一项昂贵的操作。
据我了解,数据帧通过元数据为rdd添加了一个结构层。那么,在转换为rdd的同时剥离它要花这么多时间吗?
DataFrame是一种优化的分布式表格集合。由于它保持表格格式(类似于SQL表),因此可以保留元数据以允许Spark在后台进行一些优化。