使用Java将spark RDD保存到本地文件系统中

问题描述 投票:5回答:1

我有一个使用Spark生成的RDD。现在,如果我将此RDD写入一个csv文件,则可以使用“ saveAsTextFile()”之类的一些方法来将一个csv文件输出到HDFS。

我想将文件写入本地文件系统,以便我的SSIS进程可以从系统中选择文件并将它们加载到DB中。

我目前无法使用sqoop。

除了编写shell脚本以外,在Java中还有其他可能的方法吗?

需要任何澄清,请告知。

java sql-server apache-spark hdfs rdd
1个回答
12
投票

saveAsTextFile可以采用本地文件系统路径(例如file:///tmp/magic/...)。但是,如果您在分布式集群上运行,则很可能要将数据collect()返回集群,然后使用标准文件操作将其保存。

© www.soinside.com 2019 - 2024. All rights reserved.