[我已经在连接到我的Blob存储的数据块中创建了一个安装架,并且能够使用笔记本将文件从Blob读取到数据块。
然后我使用pyspark将.txt转换为json格式,现在我想将其重新加载到Blob存储中。有人知道我会怎么做吗?
以下是我尝试过的一些事情:
my_json.write.option("header", "true").json("mnt/my_mount/file_name.json")
write.json(my_json, mnt/my_mount)
都不起作用。我可以使用以下方法将来自数据块的csv文件加载到Blob:
my_data_frame.write.option("header", "true").csv("mnt/my_mount_name/file name.csv")
这很好,但是我找不到移动json的解决方案。
有什么想法吗?
免责声明:我是pySpark的新手,但这是我做的。
这是我参考文档pyspark.sql.DataFrameWriter.json之后所做的事情>
# JSON
my_dataframe.write.json("/mnt/my_mount/my_json_file_name.json")
# For a single JSON file
my_dataframe.repartition(1).write.json("/mnt/my_mount/my_json_file_name.json")
# Parquet
my_dataframe.write.mode("Overwrite").partitionBy("myCol").parquet("/mnt/my_mount/my_parquet_file_name.parquet")