aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

使用 Aws 胶水爬行器的 Delta Lake 表的云形成模板“无效的 Delta 目标和空的 Delta 表”错误

`` AWSTemplateFormat版本:“2010-09-0 AWSTemplateFormat版本:“2010-09-09” 描述:使用awsglue爬虫的Delta Lake表 资源: 爬行: 类型:AWS::Glue::Crawler 正确的...

回答 1 投票 0

当作业名称包含“/”时,AWS 数据质量未获得结果

我将作业从 job.py 更改为位于 AWS 读取所有作业的存储桶中的 my_folder/job.py 中。这导致我无法再看到数据质量执行的结果。 我想要

回答 1 投票 0


为什么我在此 AWS Glue 作业中收到 S3 访问错误 AmazonS3Exception

我正在运行 AWS Glue 作业,该作业正在执行其应该执行的操作,它从 Kinesis 流中获取记录并将其放入数据湖中。但它以失败告终,并且错误如下......

回答 1 投票 0

Pyspark 在从 Postgres 加载之前过滤结果(不要先加载整个表)

我正在尝试将大量数据从VPC中的RDS Postgres实例迁移到同一VPC中的redshift集群。我正在尝试使用 PySpark 和 AWS Glue 来执行此操作。我只想移民...

回答 2 投票 0

不同主机上的Pyspark DDL SQL查询

我是Python和整个gluescript的新手。我想在不同的数据库服务器上执行删除查询。我不确定我做错了什么 def remove_from_db(驱动程序、url、dbtable、用户、pass...

回答 1 投票 0

AWS Glue:如何决定完成我的工作需要多少个工作节点

在此处输入图像描述我有 70 个文件夹,每个文件夹包含大约 700 个文件。我有一个粘合作业,它合并每个文件夹中的文件并存储单个文件(使用重新分区(1...

回答 1 投票 0

AWS Glue 无法访问输入数据集

我在 Glue / Athena 中注册了一个数据集,将其命名为 my_db.table。我可以通过 Athena 查询它,一切似乎都正常。 我正在尝试在胶水作业中使用这张桌子,但是

回答 3 投票 0

将 Amazon SageMaker 终端节点集成到 Glue 或 EMR 上的批量 ETL 工作流程中

我们如何才能最好地通过 Glue、基于 EMR 的 Spark 作业配置上述 AWS Sagemaker ML 模型端点? 正如我们在 AWS 文档“此处”中看到的,端点名称为“线性学习器-2019-11-04-01...

回答 2 投票 0

AWS Glue python shell 作业是否支持 Glue 版本 2.0?

我们有 Glue 作业,类型:“Python Shell”,Py 版本:“Python 3.6”,DPU:“1/16”,Glue 版本:“1.0”。 如何将胶水版本从 1.0 更改为 2.0? AWS Glue python shell 作业是否支持

回答 2 投票 0

将 eventbridge 从 S3 运行到胶水工作流程中

我正在通过 cloudformation 创建一个模板,以便在将特定文件插入特定存储桶时,在 eventbridge 中执行一条规则,从而触发粘合工作流执行事件。 该项目...

回答 1 投票 0

AWS GLUE - 如何从 RDS 表读取数据并将其作为 csv 文件复制到 S3 存储桶

AWS 胶水对我来说是新的。 我正在使用 AWS Glue,尝试从 RDS 数据库表中读取数据并将数据作为单个 csv 文件写入 s2 存储桶。我已使用 Visual ETL 设置了 AWS Glue 作业...

回答 1 投票 0

冰山模式不合并缺失的列

我正在 AWS 粘合作业中使用以下代码创建一个 Iceberg 表: df.writeTo(f'glue_catalog.{DATABASE_NAME}.{TABLE_NAME}') \ .using('冰山') \ .tableProperty("位置",

回答 1 投票 0

AWS Glue Studio 到 AWS Athena 表

我在AWS Athena中有一个数据库,里面有一堆表。我想使用 AWS Glue Studio 执行这些表的联接。我已订阅适用于 Amazon Athena 的 CData AWS Glue 连接器。当我尝试...

回答 2 投票 0

如何计算AWS Glue中处理1TB数据的G.1 Workers数量?

我有来自 parquet S3 的 1TB 数据要加载到 AWS Glue Spark 作业中。我正在尝试计算出满足此类要求所需的工人数量。 根据我的说法,以下是 t...

回答 2 投票 0

如何在 AWS SDLF 管道中的 source_mappings.json 文件中设置数值?

AWS S3 中有一个用于将文件提取到 DataLake 中的框架,名称为 Serverless DataLake Framework 又名 SDLF,需要进行一些配置才能在 S3 中的多个阶段移动文件

回答 1 投票 0

基于模式从 S3 返回文件的更快方法

我有一个 S3 存储桶,我只想根据模式返回文件。存储桶中的所有文件的文件名中都有与其关联的日期。例如文件名是 2023-10-18-edewj324lkj...

回答 1 投票 0

使用 Pyspark 代码通过 Glue Job 处理具有大量数据的多个文件

我有一个场景,我们必须通过 Glue Job 处理 9 个文件。目前我们正在使用 Pyspark 并将所有 9 个文件读取到单个数据帧中。文件大小约为 11GB,管道...

回答 1 投票 0

py4j 错误“调用 z:com.amazonaws.services.glue.util.Job.init 时发生错误。”

我正在尝试执行 awsgluespark 作业以将一些数据从表读取到 S3 位置。 但我收到如下堆栈跟踪所示的错误:“调用 z:com.amazonaws.serv 时发生错误...

回答 1 投票 0

AWS Glue 中的 Spark 作业失败 | “调用 o86.getSink 时发生错误。连接尝试失败。”

我尝试将 csv 文件中的数据从 S3 存储迁移到 Redshift 集群中的表。我参考了在 AW 中使用可视模式构建块后自动生成的代码...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.