在加载到 AWS Glue 笔记本之前截断表

问题描述 投票:0回答:1

我发现可以做到这一点,但是使用 redshift 如何使用 Spark 或glue 目录以不同的方式完成它?

我在使用 AWS Glue 笔记本加载表之前尝试截断表时遇到问题。

pyspark apache-spark-sql aws-glue
1个回答
0
投票

我正在分享代码片段,用于在将表加载到 AWS Glue 笔记本之前截断表。此代码有助于确保在加载新数据之前清除目标表中的任何现有数据。

sdf=spark.sql(sql)

conf = glueContext.extract_jdbc_conf("conn-dlh-datos-fed")

(sdf.write 
.mode('overwrite') 
.format("jdbc") 
.option("url", f"{conf['url']}/{conf['url'].split('//')[1].split('.')[0]}?user={conf['user']}&password={conf['password']}&ReadOnly=false") 
.option("dbtable", "dw.geoconsulta_test_3") 
.option('truncate','true') 
.save()

请注意,我将 url conf 拆分为数据库名称

原始解决方案可以找到这个:stackoverflow

© www.soinside.com 2019 - 2024. All rights reserved.