aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

从 SQL Server 中的表中提取增量数据的 SQL 查询

我正在创建一个 AWS 粘合作业,以将数据从 OLTP 数据库提取到 Redshift 数据库中。我希望 SQL 查询从表中提取增量数据。 我的表有 CreatedOn 和 LastUpda 等列...

回答 1 投票 0

AWS Glue 插入并更新到 oracle 表中

我们正在尝试将一些工作从 informatica 迁移到 awsglue 大部分逻辑和转换已经完成。 最后一步是将数据插入到 oracle 数据库中(aw 中不存在...

回答 1 投票 0

从 SQL Server 中的表中提取增量数据的 SQL 查询

我正在创建一个 AWS 粘合作业,以将数据从 OLTP 数据库提取到 Redshift 数据库中。我希望 SQL 查询从表中提取增量数据。 我的表有 CreatedOn 和 LastUpda 等列...

回答 1 投票 0

对数据框中的嵌套 json 列应用转换

我有一个场景,S3 存储桶中会有多个 json 文件,我的 Pyspark 脚本会将其加载到数据帧中。 每个 json 将具有以下结构 - [ { “RECORDS_HEA...

回答 1 投票 0

Amazon Glue - 使用小数字段加载到 Redshift 失败

我有一个非常简单的 Glue 作业,将数据从 S3 加载到 Redshift,中间有一个 Transform 来重命名字段并更改其类型: 第一次执行运行(几乎)没有问题 - 数据已加载...

回答 1 投票 0

使用 Spark 引擎的 AWS Glue 批量处理

这是我的场景。 我有一个源数据库,它是带有 Postgresql 引擎的 aurora 数据库。我有一个名为付款的表。该表由数百万条记录组成,因此在每个 d 结束时...

回答 1 投票 0

AWS Glue Crawler 在读取空文件时创建多个表

我正在编写一个 Glue Crawler 作为 ETL 的一部分,我有一个非常烦人的问题 - 我正在爬取的 S3 存储桶包含许多不同的 JSON 文件,所有文件都具有相同的架构。当爬行桶时...

回答 1 投票 0

Spark jdbc 覆盖模式未按预期工作

我想使用spark执行更新和插入操作 请查找现有表格的图像参考 在这里,我更新 id :101 位置和插入时间并插入另外 2 条记录: ...

回答 6 投票 0

AWS Glue 工作室将 Pyspark 字符串列转换为日期返回 null

我有来自 S3 存储桶的数据,并且想要将日期列从字符串转换为日期。当前日期列的格式为 7/1/2022 12:0:15 AM。 我在 AWS Glue Studio 中使用的当前代码...

回答 3 投票 0

Aws Glue 在使用 BeautifulSoup 运行 python 脚本时抛出错误

我有一个Python代码,可以使用Beautifulsoup从网站上抓取数据,并且在Jupyter.im中运行良好,尝试在awsglue中运行相同的脚本,并在glue中添加以下作业参数...

回答 1 投票 0

如何在同一个glue任务中用处理结果替换数据源

我想处理A中的一些数据,并用处理后的结果替换A。 write() 操作完成后,我可以在任何“地方”做一些事情吗?或者有什么办法可以替代原来的d...

回答 1 投票 0

AWS Glue relationalize 不将数据存储到 s3

我已将 DynamoDB 表加载到 DynamicFrame 中,然后使用以下选项运行关系化 df_contracts_rel = df_contracts_normalized.relationalize( “合同”, 分期_p...

回答 1 投票 0

哪些选项可以传递给 AWS Glue DynamicFrame.toDF()?

toDF() 方法的文档指定我们可以向此方法传递一个选项参数。但它没有指定这些选项是什么(https://docs.aws.amazon.com/glue/latest/dg/aws-...

回答 2 投票 0

如何通过 AWS Glue 上的 PySpark 使用 JDBC 驱动程序?

如何通过 AWS Glue 上的 PySpark 使用 JDBC 驱动程序? 在我学习的过程中,需要执行以下步骤: 1 - 下载带有 .jar 扩展名的 jdbc 驱动程序 2 - 保存到 S3 存储桶 3 - 在

回答 1 投票 0

如何在所有工作节点上并行写入 Pyspark 数据帧列表?

我正在尝试运行一个基本的 AWS Glue 4.0 作业,它运行一个转换函数并返回一个数据帧列表: 导入系统 从 awsglue.utils 导入 getResolvedOptions 从 pyspark.context 导入

回答 1 投票 0

AWS Glue - 调用 o95.getDynamicFrame 时发生错误。通讯链路故障

我正在尝试使用 AWS Glue Spark 脚本和 JDBC Glue 连接连接到外部 MariaDB 数据库实例。 Spark 脚本的代码片段是: dyf =glueContext.create_dynamic_...

回答 1 投票 0

即使在版本控制中配置 Git 后,Jupyter Notebook 作业的 AWS 粘合作业中也会禁用推送到存储库按钮

我已在 awsglueetl 中使用 Git PAT 和存储库名称配置了我的 Jupyter Notebook 作业,但“推送到存储库”按钮仍处于禁用状态。我有另一个可视化 ETL 作业,该作业已启用按钮...

回答 2 投票 0

组合 n 个 Pyspark 数据帧的最有效方法

我有一个特定的函数需要使用这个基本结构进行优化: 列出 customer_dfs = [] 对于 customer_list 中的客户 df = // Pyspark 转换函数 {10-15 行

回答 1 投票 0

如何从 Glue Studio ETL 作业中删除旧数据

我的 S3 存储桶中有一个 CSV 文件。我正在使用 Glue Studio 获取该 CSV 并在 S3 存储桶中创建各种分区,以便加快 Athena 查询速度。 然而,当作业运行时,它是

回答 2 投票 0

如何访问 Glue 作业脚本中的 GlueJobOperator script_args 输入参数?

我有一个气流 DAG,它使用 GlueJobOperator 模块来触发 AWS Glue 作业。一切工作正常,除了我现在尝试通过 script_args par 传递一些输入参数...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.