我正在研究火花1.6.1
我有一个分布式的数据帧,肯定比我的集群中的任何节点都要大。
如果我将所有节点带入节点会发生什么?
df.coalesce(1)
这份工作会失败吗?
谢谢
它肯定会失败,因为数据不适合内存。如果要将单个文件作为输出返回,可以稍后使用HDFS getMerge合并HDFS文件。
您可以使用实用程序将多个文件合并到下面提到的git项目https://github.com/gopal-tiwari/hdfs-file-merge中的一个文件中