使用sparkSession.createDataFrame以拼写格式一次将多行写入s3

问题描述 投票:0回答:1

我成功创建了一个单帧/行并使用以下内容以拼花格式写入s3

frame = sparkSession.createDataFrame(data_frame, schema_frame)
frame.write.parquet(s3_path)

我如何一次写入多行以最小化每次写入?意味着我创建了多行,并以某种方式将一次大帧传递给s3我尝试将多个帧放入列表中,然后将其传递给frame.write,但此操作不适用于错误AttributeError: 'list' object has no attribute 'write'

此外,如果我尝试在单个帧的循环中写入s3,则会出现错误,

AnalysisException: 'path s3://stackoverflow-test-bucket/testing/default_bucket/year=2020/month=4/day=4 already exists.;'
python-3.x apache-spark pyspark parquet
1个回答
0
投票
append
© www.soinside.com 2019 - 2024. All rights reserved.