Pyspark - 写入 cvs 并将其读回数据帧

问题描述投票：0回答：1

我需要从 mysql 读取相当大的数据，将其写入文件以优化进一步的工作 - 然后使用该文件。

但是 Spark 创建的不是一个文件 - 而是整个文件夹。我可以找出文件的确切名称 - 但 Spark 可能有正确的方法从刚刚写入的文件中获取 df ？

pyspark cvs

1个回答

0
投票

Spark 将始终创建一个文件夹，但您可以使用

coalesce()

强制其将数据推送到一个文件。这样数据将被重新分区：

df.coalesce(1).write.csv("file_name")

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.