aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

AWS DynamicFrame.Map 不返回任何行

我有以下代码作为 ETL 脚本的一部分。 def UpdateRec(rec): rec["LoanNumber_ERROR"] = rec["LoanNumber"] + " 无效" 返回记录 my_dyf = 动态框架。

回答 1 投票 0

使用步骤函数重新运行失败的粘合作业

我基本上想在状态失败或超时后重试粘合作业两次,然后再进入下一阶段。我的状态机如下所示: { “评论”:“对我的状态的描述

回答 1 投票 0

AWS Glue 作业全局排除模式不起作用

我在 s3 中有以下文件夹结构。 我的桶: - 1-准备- //UUID是随机生成的数字 - 文件1.csv - 文件2.csv - 2-Ready- //UUID是随机生成的

回答 1 投票 0

如何配置eventbridge规则来粘合爬虫?

寻求一些帮助。我读了一些例子,但仍然不确定,是否可以通过 s3 对象通知直接调用胶水爬虫作业。根据我读到的内容,看来我不能......

回答 1 投票 0

使用 boto3 库从 AWS S3 存储桶读取 XML 文件的内容

我正在尝试使用 BOTO3 库读取 XML 文件的内容进行解析,但在执行此操作时出现以下错误。 我正在使用下面的 python 代码。 导入 xml.etree.ElementTree as et 我...

回答 2 投票 0

如何在没有目录的情况下连接涂胶作业和RDS

我一直在尝试寻找一种解决方案来建立胶水作业和RDS postgresql之间的连接,但所有解决方案都使用我不想使用的胶水目录。 我只想建立...

回答 1 投票 0

[pyspark]合并镶木地板文件时,MutableFloat 无法转换为 MutableDouble

我的 S3 文件夹中有许多镶木地板文件。每一个都有“A”、“B”、“C”列。 “A”和“B”列具有字符串数据类型,但“C”列在某些中具有 Float 类型,在其他中具有 Double 类型。我想合并

回答 1 投票 0

标记 AWS 粘合表

我想知道是否可以以任何方式在 awsglue 中标记表格。我知道在文档中,没有给出表格的可能性。 还给出了数据的标记...

回答 1 投票 0

Redshift - 字符串列被截断

我们利用 AWS Glue 爬网程序提取存储在 Amazon S3 中的 Parquet 文件。爬网程序检测 Parquet 文件的架构和元数据,并在 Amazon Redshift 中创建外部架构/表....

回答 2 投票 0

使用 AWS Glue Cralwer 生成架构时出错,对“:”使用转义字符

我已将 Amazon Connect 代理记录和 CTR 记录存储在同一数据流中,并使用加载到 S3 中的 Firehose,在其中我发现使用 Athena 读取数据时出现问题,我使用了 AWS Glue Craw...

回答 1 投票 0

执行 AWS 胶水作业时出现错误

编写 AWS 胶水作业以从 s3 获取数据并加载到 rds 中,作业失败并出现错误 错误类别:UNCCLASSIFIED_ERROR;调用 o106.getDynamicFrame 时发生错误。 com.amazon.ws.emr.h...

回答 1 投票 0

执行 awsglue 作业时出现错误

编写 awsglue 作业以从 s3 获取数据并加载到 rds 中,作业失败并显示 Error Category: UNCLASSIFIED_ERROR;调用 o106.getDynamicFrame 时发生错误。 com.amazon.ws.emr.hadoop.fs.s...

回答 1 投票 0

当我使用作业胶水时,Amazon S3 中的数据是否会传输到公共互联网上?

我正在使用 AWS 服务创建数据管道 我的数据存储在 Amazon S3 存储桶中,我计划使用胶水爬虫在前缀下抓取数据以提取元数据,并在胶水之后...

回答 2 投票 0

我的 AWS Glue 作业出现以下错误:pyWriteDynamicFrame。多次指定连接属性:DB

我创建了我的第一个视觉胶水作业。 当我运行它时,出现错误:pyWriteDynamicFrame。多次指定的连接属性:DB。 我查看了脚本,没有看到“DB”

回答 1 投票 0

AWS Glue 在顺序运行时输出空文件

我正在尝试自动化 ETL 管道,将数据从 AWS RDS MYSQL 输出到 AWS S3。我目前正在使用 AWS Glue 来完成这项工作。当我从 RDS 到 S3 进行初始加载时。它捕获了所有的数据...

回答 3 投票 0

如何格式化和个性化 AWS sns 消息的内容?

我在状态机中使用 sns 服务,当粘合作业失败或成功时,它会向我发送一条消息,并且我不想像所有 json 格式那样向我发送一条消息,而只是发送一条包含 JobRunState 的消息

回答 1 投票 0

有没有办法知道 S3 表中写入的最后一个分区用于 AWS Glue 作业中的下推谓词?

我正在尝试从使用下推谓词读取动态帧的粘合作业中读取 S3 中表中写入的最后一个分区。 我想要读取的表每天都会加载,并且

回答 2 投票 0

从 RDS 到 Snowflake 的 AWS Glue ETL 作业中出现错误“IllegalArgumentException:没有名称为 <host> 的组”

我已成功设置 AWS Glue,其中 RDS 数据库作为数据源,Snowflake 数据库作为数据目标。在此设置中,我配置了 AWS Glue 爬网程序来对元数据进行编目...

回答 1 投票 0

有没有办法使用 AWS CDK 将 ServiceRoles 策略附加到手动创建的角色?

我尝试将 AWSGlueServiceRole 附加到 AWS CDK 应用程序中手动创建的角色。它可以通过 AWS IAM 控制台轻松附加,但我找不到通过 CDK 附加它的方法。 以下...

回答 1 投票 0

有没有办法使用 AWS CDK 将 ServiceRoles 附加(如策略)到手动创建的角色?

我尝试将 AWSGlueServiceRole 附加到 AWS CDK 应用程序中手动创建的角色。它可以通过 AWS IAM 控制台轻松附加,但我找不到通过 CDK 附加它的方法。 以下...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.