aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

AWS Glue 作业使用 DynamoDB 和 MySQL 成功,但数据不存在

我在 DynamoDB 中有数据,想要提取它并将其放入 MySQL 数据库 (AWS RDS)。我已经设置了 AWS Glue,其中包含 DynamoDB 表的爬网程序和 MySQL 数据库表的爬网程序。 ...

回答 1 投票 0

AWS Glue Scala - 将脚本拆分为多个 scala 文件

我不明白如何将glue脚本分割成几个scala文件。我知道一个先决条件是引用“引用文件路径”中的“其他 scala 文件”并且......

回答 1 投票 0

如何在 VPC 内设置跨账户 AWS CodeArtifact 访问

这是我的设置: 使用 AWS Organizations 隔离不同的应用程序堆栈;每个组织单位都有单独的 AWS 账户来区分开发和生产。 一项“共享服务”AWS

回答 1 投票 0

AWS Stepfunction 中的异常处理如何工作?

我在通过 Step Functions 运行 Glue 作业时遇到了限制异常,为了处理它,我为“AWSGlueException”错误添加了一个重试块(这是超类异常...

回答 1 投票 0

使用 Aws 胶水爬行器的 Delta Lake 表的云形成模板“无效的 Delta 目标和空的 Delta 表”错误

`` AWSTemplateFormat版本:“2010-09-0 AWSTemplateFormat版本:“2010-09-09” 描述:使用awsglue爬虫的Delta Lake表 资源: 爬行: 类型:AWS::Glue::Crawler 正确的...

回答 1 投票 0

当作业名称包含“/”时,AWS 数据质量未获得结果

我将作业从 job.py 更改为位于 AWS 读取所有作业的存储桶中的 my_folder/job.py 中。这导致我无法再看到数据质量执行的结果。 我想要

回答 1 投票 0


为什么我在此 AWS Glue 作业中收到 S3 访问错误 AmazonS3Exception

我正在运行 AWS Glue 作业,该作业正在执行其应该执行的操作,它从 Kinesis 流中获取记录并将其放入数据湖中。但它以失败告终,并且错误如下......

回答 1 投票 0

Pyspark 在从 Postgres 加载之前过滤结果(不要先加载整个表)

我正在尝试将大量数据从VPC中的RDS Postgres实例迁移到同一VPC中的redshift集群。我正在尝试使用 PySpark 和 AWS Glue 来执行此操作。我只想移民...

回答 2 投票 0

不同主机上的Pyspark DDL SQL查询

我是Python和整个gluescript的新手。我想在不同的数据库服务器上执行删除查询。我不确定我做错了什么 def remove_from_db(驱动程序、url、dbtable、用户、pass...

回答 1 投票 0

AWS Glue:如何决定完成我的工作需要多少个工作节点

在此处输入图像描述我有 70 个文件夹,每个文件夹包含大约 700 个文件。我有一个粘合作业,它合并每个文件夹中的文件并存储单个文件(使用重新分区(1...

回答 1 投票 0

AWS Glue 无法访问输入数据集

我在 Glue / Athena 中注册了一个数据集,将其命名为 my_db.table。我可以通过 Athena 查询它,一切似乎都正常。 我正在尝试在胶水作业中使用这张桌子,但是

回答 3 投票 0

将 Amazon SageMaker 终端节点集成到 Glue 或 EMR 上的批量 ETL 工作流程中

我们如何才能最好地通过 Glue、基于 EMR 的 Spark 作业配置上述 AWS Sagemaker ML 模型端点? 正如我们在 AWS 文档“此处”中看到的,端点名称为“线性学习器-2019-11-04-01...

回答 2 投票 0

AWS Glue python shell 作业是否支持 Glue 版本 2.0?

我们有 Glue 作业,类型:“Python Shell”,Py 版本:“Python 3.6”,DPU:“1/16”,Glue 版本:“1.0”。 如何将胶水版本从 1.0 更改为 2.0? AWS Glue python shell 作业是否支持

回答 2 投票 0

将 eventbridge 从 S3 运行到胶水工作流程中

我正在通过 cloudformation 创建一个模板,以便在将特定文件插入特定存储桶时,在 eventbridge 中执行一条规则,从而触发粘合工作流执行事件。 该项目...

回答 1 投票 0

AWS GLUE - 如何从 RDS 表读取数据并将其作为 csv 文件复制到 S3 存储桶

AWS 胶水对我来说是新的。 我正在使用 AWS Glue,尝试从 RDS 数据库表中读取数据并将数据作为单个 csv 文件写入 s2 存储桶。我已使用 Visual ETL 设置了 AWS Glue 作业...

回答 1 投票 0

冰山模式不合并缺失的列

我正在 AWS 粘合作业中使用以下代码创建一个 Iceberg 表: df.writeTo(f'glue_catalog.{DATABASE_NAME}.{TABLE_NAME}') \ .using('冰山') \ .tableProperty("位置",

回答 1 投票 0

AWS Glue Studio 到 AWS Athena 表

我在AWS Athena中有一个数据库,里面有一堆表。我想使用 AWS Glue Studio 执行这些表的联接。我已订阅适用于 Amazon Athena 的 CData AWS Glue 连接器。当我尝试...

回答 2 投票 0

如何计算AWS Glue中处理1TB数据的G.1 Workers数量?

我有来自 parquet S3 的 1TB 数据要加载到 AWS Glue Spark 作业中。我正在尝试计算出满足此类要求所需的工人数量。 根据我的说法,以下是 t...

回答 2 投票 0

如何在 AWS SDLF 管道中的 source_mappings.json 文件中设置数值?

AWS S3 中有一个用于将文件提取到 DataLake 中的框架,名称为 Serverless DataLake Framework 又名 SDLF,需要进行一些配置才能在 S3 中的多个阶段移动文件

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.