aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

如何使用glue将存储在s3中的json文件转换为csv?

我在 s3 中存储了一些 json 文件,我需要将它们在它们所在的文件夹中转换为 csv 格式。 目前我正在使用胶水将它们映射到 athena,但是,正如我所说,现在我需要映射...

回答 2 投票 0

如何使用 Glue 作业将 JSON 从 s3 转换为 CSV 文件并将其保存在同一个 s3 存储桶中

请帮助我完成编码部分 我用谷歌搜索了代码,但它只显示使用 lambda 处理程序。我的项目需要使用gluejob。

回答 1 投票 0

如何配置 AWS Glue 以通过 pyodata API 和已建立的 VPC 访问 SAP 数据?

我尝试使用 pyodata API 从 SAP 服务获取数据,然后我想使用 AWS Glue 对其进行处理。 SAP 系统位于专用网络上,但通过 VPC 和 TGW 连接到我的 AWS。我

回答 1 投票 0

InvalidInputException(状态:400):给定分区键类型不支持分区索引

我正在尝试在 AWS Glue for Athena 中的分区列上创建索引。我不断收到错误: 无法完成创建索引的请求。 InvalidInputException(状态:400):分区我...

回答 1 投票 0

AWS Glue:分析异常:找不到表或视图

我正在尝试从 Glue 4.0 中的数据帧创建视图,但收到错误 - AnalysisException:未找到表或视图。 glue数据库中表的数据格式是hudi。 代码 - 重要...

回答 1 投票 0

Glue 作业将数据类型不正确的 Parquet 文件写入 S3

我正在使用胶水工作。 Glue 作业将输入读取为清单文件,其中包含 JSON 数据文件。将其读取到数据帧后,我们应用某种处理/转换,然后进行粘合作业...

回答 1 投票 0

Spark 流 leftOuter 无法与第三个流连接一起使用

我被这个流 leftOuter join 困住了。我能够流连接 2 个数据帧,并且在水印时间到期后可以获得空值。但如果我加入 3 个数据框,我就无法实现。 ...

回答 1 投票 0

使用 Pyspark 将整个 json 文件放入数据框的一个单元格中

我有嵌套的 JSON 文件,我需要将每个文件放入数据框的一个单元格中。 最初的想法是采用嵌套的 json,再创建一个名为“DataType”的键值列,放入整个

回答 1 投票 0

粘合 pyspark 脚本,用于从 hudi 表中删除记录而不加载到数据帧中

我在S3中有一个hudi表,它在Glue目录中注册。我希望编写一个 Glue pyspark 作业来删除在其中一个字段中具有特定值的所有记录。 我管理的代码示例...

回答 1 投票 0

由于 VARCHAR/TEXT 字符的字符串长度限制,尝试执行合并到 Redshift 表时胶水作业失败

我们有数百个 Glue 作业将数据从 S3 和 RDS 移动到 Redshift。当从源系统生成新数据然后移动到 Redshift 时,我们需要执行 upsert,即插入新数据

回答 1 投票 0

AttributeError:“GlueContext”对象没有属性“create_sample_dynamic_frame”

这个官方文档建议有一个函数可以从 Glue Catalog 读取示例数据,即 create_dynamic_frame_from_catalog。 详细:create_dynamic_frame_from_catalog(database, table_name,

回答 1 投票 0

AWS Glue:如何在输出中添加包含源文件名的列?

有谁知道如何将源文件名添加为胶水作业中的列? 我们创建了一个流程,在其中抓取 S3 中的一些文件以创建架构。然后我们编写了一个转换文件的作业......

回答 5 投票 0

AWS 胶水。如何为作业书签创建复合键?

我有一个带有表的 JDBC 源 (PostgreSQL),我想通过 Glue 获取该表。 我的表有列: id(大整型) 名称(字符串) 更新时间(时间戳) 我已经把桌子摆在...

回答 2 投票 0

AWS Glue 中的 JSON 数组字段更改为“double/int/string/struct”格式

我有一个来自网上的JSON文件。 { "国际民航组织": "f3b100", “noRegData”:正确, “时间戳”:1690848000, “痕迹”: [ [ 51213.77, 39.0...

回答 1 投票 0

在加载到 AWS Glue 笔记本之前截断表

我发现可以做到这一点,但是使用redshift如何使用spark或glue目录以不同的方式完成它? 我在加载表格之前尝试截断表格时遇到问题...

回答 1 投票 0

Redshift Spectrum 查询失败,并显示解析的清单不是有效的 JSON 对象

我有一个带有 5 个前缀/“子文件夹”的 S3 存储桶,每个前缀/“子文件夹”都包含一组从旧数据库导出的 CSV 文件。 CSV 文件已被抓取并创建了 Glue 数据库...

回答 1 投票 0

第一次手动上传后定期触发S3上传事件

我设计了一个解决方案,通过事件通知触发手动 S3 文件上传的 lambda 函数。我的 Lambda 根据上传的文件处理一些数据。 我现在想三...

回答 1 投票 0

从 AWS 中的外部 API 收集大量数据

我正在 AWS 中创建一个无服务器应用程序,需要将通过外部 API 收集的一些数据存储到 DynamoDB 实例中。 我试图通过 Lambda 函数来实现它,但是数据......

回答 1 投票 0

如何将两个 write_dynamic_frame.from_options 合并到一个事务中?

我正在使用 Glue 和 pyspark。我正在写这样的两个表: glueContext.write_dynamic_frame.from_options( 框架=DynamicFrame.fromDF(df1,glueContext,“df1”),

回答 1 投票 0

将具有 UTC 偏移量的字符串转换为 Spark 时间戳偏移量

我正在尝试使用Glue使用sparksql(spark cluster 3.0)将来自s3/csv文件的字符串转换为aurora mysql csv 中的现有字符串值:20231021134021+0100 预计时间戳:2023-10-...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.