aws-glue 相关问题

AWS Glue是一种完全托管的ETL（提取，转换和加载）服务，可以对数据进行分类，清理，丰富数据，并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库，一个自动生成Python代码的ETL引擎，以及一个处理依赖项解析，作业监控和重试的调度程序。 AWS Glue无服务器，因此无需管理基础架构。

使用 Aws 胶水爬行器的 Delta Lake 表的云形成模板“无效的 Delta 目标和空的 Delta 表”错误

`` AWSTemplateFormat版本：“2010-09-0 AWSTemplateFormat版本：“2010-09-09” 描述：使用awsglue爬虫的Delta Lake表资源：爬行：类型：AWS::Glue::Crawler 正确的...

amazon-web-services aws-cloudformation aws-glue aws-glue-crawler

回答 1 投票 0

当作业名称包含“/”时，AWS 数据质量未获得结果

我将作业从 job.py 更改为位于 AWS 读取所有作业的存储桶中的 my_folder/job.py 中。这导致我无法再看到数据质量执行的结果。我想要

amazon-web-services aws-glue data-quality

回答 1 投票 0

如何从 AWS CodeArtifact 安装软件包以在 AWS Glue Spark 作业中使用？

问题当使用设置

aws-glue aws-codeartifact

回答 1 投票 0

为什么我在此 AWS Glue 作业中收到 S3 访问错误 AmazonS3Exception

我正在运行 AWS Glue 作业，该作业正在执行其应该执行的操作，它从 Kinesis 流中获取记录并将其放入数据湖中。但它以失败告终，并且错误如下......

python amazon-web-services amazon-s3 aws-glue

回答 1 投票 0

Pyspark 在从 Postgres 加载之前过滤结果（不要先加载整个表）

我正在尝试将大量数据从VPC中的RDS Postgres实例迁移到同一VPC中的redshift集群。我正在尝试使用 PySpark 和 AWS Glue 来执行此操作。我只想移民...

python postgresql apache-spark pyspark aws-glue

回答 2 投票 0

不同主机上的Pyspark DDL SQL查询

我是Python和整个gluescript的新手。我想在不同的数据库服务器上执行删除查询。我不确定我做错了什么 def remove_from_db(驱动程序、url、dbtable、用户、pass...

python mysql pyspark aws-glue

回答 1 投票 0

AWS Glue：如何决定完成我的工作需要多少个工作节点

在此处输入图像描述我有 70 个文件夹，每个文件夹包含大约 700 个文件。我有一个粘合作业，它合并每个文件夹中的文件并存储单个文件（使用重新分区（1...

amazon-s3 pyspark aws-glue

回答 1 投票 0

AWS Glue 无法访问输入数据集

我在 Glue / Athena 中注册了一个数据集，将其命名为 my_db.table。我可以通过 Athena 查询它，一切似乎都正常。我正在尝试在胶水作业中使用这张桌子，但是

amazon-web-services pyspark amazon-athena aws-glue

回答 3 投票 0

将 Amazon SageMaker 终端节点集成到 Glue 或 EMR 上的批量 ETL 工作流程中

我们如何才能最好地通过 Glue、基于 EMR 的 Spark 作业配置上述 AWS Sagemaker ML 模型端点？正如我们在 AWS 文档“此处”中看到的，端点名称为“线性学习器-2019-11-04-01...

python amazon-web-services amazon-emr aws-glue amazon-sagemaker

回答 2 投票 0

AWS Glue python shell 作业是否支持 Glue 版本 2.0？

我们有 Glue 作业，类型：“Python Shell”，Py 版本：“Python 3.6”，DPU：“1/16”，Glue 版本：“1.0”。如何将胶水版本从 1.0 更改为 2.0？ AWS Glue python shell 作业是否支持

python shell version aws-glue jobs

回答 2 投票 0

将 eventbridge 从 S3 运行到胶水工作流程中

我正在通过 cloudformation 创建一个模板，以便在将特定文件插入特定存储桶时，在 eventbridge 中执行一条规则，从而触发粘合工作流执行事件。该项目...

amazon-web-services amazon-s3 aws-glue aws-event-bridge

回答 1 投票 0

AWS GLUE - 如何从 RDS 表读取数据并将其作为 csv 文件复制到 S3 存储桶

AWS 胶水对我来说是新的。我正在使用 AWS Glue，尝试从 RDS 数据库表中读取数据并将数据作为单个 csv 文件写入 s2 存储桶。我已使用 Visual ETL 设置了 AWS Glue 作业...

amazon-web-services amazon-s3 aws-glue

回答 1 投票 0

冰山模式不合并缺失的列

我正在 AWS 粘合作业中使用以下代码创建一个 Iceberg 表： df.writeTo(f'glue_catalog.{DATABASE_NAME}.{TABLE_NAME}') \ .using('冰山') \ .tableProperty("位置",

pyspark aws-glue iceberg apache-iceberg

回答 1 投票 0

AWS Glue Studio 到 AWS Athena 表

我在AWS Athena中有一个数据库，里面有一堆表。我想使用 AWS Glue Studio 执行这些表的联接。我已订阅适用于 Amazon Athena 的 CData AWS Glue 连接器。当我尝试...

amazon-web-services aws-glue amazon-athena aws-glue-workflow

回答 2 投票 0

如何计算AWS Glue中处理1TB数据的G.1 Workers数量？

我有来自 parquet S3 的 1TB 数据要加载到 AWS Glue Spark 作业中。我正在尝试计算出满足此类要求所需的工人数量。根据我的说法，以下是 t...

amazon-web-services apache-spark aws-glue aws-glue-spark

回答 2 投票 0

如何在 AWS SDLF 管道中的 source_mappings.json 文件中设置数值？

AWS S3 中有一个用于将文件提取到 DataLake 中的框架，名称为 Serverless DataLake Framework 又名 SDLF，需要进行一些配置才能在 S3 中的多个阶段移动文件

json amazon-web-services pipeline aws-glue data-lake

回答 1 投票 0

基于模式从 S3 返回文件的更快方法

我有一个 S3 存储桶，我只想根据模式返回文件。存储桶中的所有文件的文件名中都有与其关联的日期。例如文件名是 2023-10-18-edewj324lkj...

python amazon-web-services amazon-s3 aws-glue

回答 1 投票 0

使用 Pyspark 代码通过 Glue Job 处理具有大量数据的多个文件

我有一个场景，我们必须通过 Glue Job 处理 9 个文件。目前我们正在使用 Pyspark 并将所有 9 个文件读取到单个数据帧中。文件大小约为 11GB，管道...

amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

py4j 错误“调用 z:com.amazonaws.services.glue.util.Job.init 时发生错误。”

我正在尝试执行 awsgluespark 作业以将一些数据从表读取到 S3 位置。但我收到如下堆栈跟踪所示的错误：“调用 z:com.amazonaws.serv 时发生错误...

amazon-web-services pyspark aws-glue

回答 1 投票 0

AWS Glue 中的 Spark 作业失败 | “调用 o86.getSink 时发生错误。连接尝试失败。”

我尝试将 csv 文件中的数据从 S3 存储迁移到 Redshift 集群中的表。我参考了在 AW 中使用可视模式构建块后自动生成的代码...

python pyspark amazon-redshift aws-glue

回答 1 投票 0

aws-glue 相关问题

最新问题