在加载到 AWS Glue 笔记本之前截断表

Question

我发现可以做到这一点，但是使用 redshift 如何使用 Spark 或glue 目录以不同的方式完成它？

我在使用 AWS Glue 笔记本加载表之前尝试截断表时遇到问题。

Answer 1

我正在分享代码片段，用于在将表加载到 AWS Glue 笔记本之前截断表。此代码有助于确保在加载新数据之前清除目标表中的任何现有数据。

sdf=spark.sql(sql)

conf = glueContext.extract_jdbc_conf("conn-dlh-datos-fed")

(sdf.write 
.mode('overwrite') 
.format("jdbc") 
.option("url", f"{conf['url']}/{conf['url'].split('//')[1].split('.')[0]}?user={conf['user']}&password={conf['password']}&ReadOnly=false") 
.option("dbtable", "dw.geoconsulta_test_3") 
.option('truncate','true') 
.save()

）

请注意，我将 url conf 拆分为数据库名称

原始解决方案可以找到这个：stackoverflow

在加载到 AWS Glue 笔记本之前截断表

问题描述投票：0回答：1

1个回答

最新问题

在加载到 AWS Glue 笔记本之前截断表

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1