我有一个50,000个JSON文件的RDD
,我需要写入Spark(Databricks)中的已安装目录。安装的路径看起来像/mnt/myblob/mydata
(使用Azure)。我尝试了以下内容,但事实证明我不能在Spark工作中使用dbutils
。
def write_json(output_path, json_data):
dbutils.fs.put(output_path, json_data)
我目前必须做的是将数据本地(到驱动程序),然后调用write_json
方法。
records = my_rdd.collect()
for r in records:
write_json(r['path'], r['json'])
这种方法有效,但需要永远完成。有更快的方法吗?
您可以使用map
并行执行此操作。
def write_json(output_path, json_data):
with open(output_path, "w") as f:
f.write(json_data)
my_rdd.map(lambda r: write_json(r['path'], r['json']))