使用spark df将数据写入雪花的性能问题

问题描述 投票:0回答:1

我正在尝试从AWS RDS系统读取数据并使用SPARK写入Snowflake。我的SPARK作业建立了与RDS的JDBC连接,并将数据拉入数据帧,另一方面,我使用雪花连接器将相同的数据帧写入雪花。

问题陈述:当我尝试写入数据时,即使30 GB的数据也要花费很长时间来写入。

我尝试过的解决方案:1)在写入之前重新划分数据帧。2)缓存数据帧。3)在写入之前对df进行计数以减少写入时的扫描时间。

pyspark spark-dataframe pyspark-sql snowflake-datawarehouse snowflake
1个回答
0
投票
© www.soinside.com 2019 - 2024. All rights reserved.