Pyspark - 写入 cvs 并将其读回数据帧

问题描述 投票:0回答:1

我需要从 mysql 读取相当大的数据,将其写入文件以优化进一步的工作 - 然后使用该文件。

但是 Spark 创建的不是一个文件 - 而是整个文件夹。我可以找出文件的确切名称 - 但 Spark 可能有正确的方法从刚刚写入的文件中获取 df ?

pyspark cvs
1个回答
0
投票

Spark 将始终创建一个文件夹,但您可以使用

coalesce()
强制其将数据推送到一个文件。这样数据将被重新分区:

df.coalesce(1).write.csv("file_name")
© www.soinside.com 2019 - 2024. All rights reserved.