我需要从 mysql 读取相当大的数据,将其写入文件以优化进一步的工作 - 然后使用该文件。
但是 Spark 创建的不是一个文件 - 而是整个文件夹。我可以找出文件的确切名称 - 但 Spark 可能有正确的方法从刚刚写入的文件中获取 df ?
Spark 将始终创建一个文件夹,但您可以使用
coalesce()
df.coalesce(1).write.csv("file_name")