合并时火花sql数据大于节点内存(1)

问题描述 投票:0回答:1

我正在研究火花1.6.1

我有一个分布式的数据帧,肯定比我的集群中的任何节点都要大。

如果我将所有节点带入节点会发生什么?

df.coalesce(1)

这份工作会失败吗?

谢谢

apache-spark apache-spark-sql coalesce
1个回答
1
投票

它肯定会失败,因为数据不适合内存。如果要将单个文件作为输出返回,可以稍后使用HDFS getMerge合并HDFS文件。

您可以使用实用程序将多个文件合并到下面提到的git项目https://github.com/gopal-tiwari/hdfs-file-merge中的一个文件中

© www.soinside.com 2019 - 2024. All rights reserved.