aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

已成功导入 Glue 脚本的 Python 包,但未成功导入 Lambda 函数

我的 S3 存储桶上有一个名为 pg8000.zip 的 .zip 文件: mybucket/devops/pg8000.zip 它目前用于 Glue 4.0 脚本,如下所示,在 Python 库字段中: s3://mybucket/devops/...

回答 1 投票 0

AWS Glue:ModuleNotFoundError:没有名为“data_transformations_app”的模块

我正在 AWS 上运行 ETL 粘合作业。 它指的是 S3 中的一个文件夹,其中包含 zip 文件中的 main 函数。 路径是正确的,我已经检查过多次了。 出于某种原因,我不断...

回答 1 投票 0

awsglue 是否直接从 eventbridge 接受事件

您可以将事件直接从AWS事件桥传递到AWS胶水吗? AWSglue是否每次都会创建一个新的集群来处理事件?该事件的处理时间是多少?

回答 1 投票 0

使用 AWS Glue Crawler 创建列名称时删除/重命名特殊字符

我正在使用 AWS Glue Crawler 爬网 S3 存储桶,它在 Athena 中创建表架构。 我了解 Athena 不支持具有 \(反斜杠)等特殊字符的列名称。 是

回答 1 投票 0

将表从 AWS PostgreSQL 复制到 Redshift 的最佳方法

我正在寻找一种将许多表从AWS PostgreSQL复制到Redshift数据库的最佳方法,如下要求: -我们需要将大约 90 个表从 7 个 AWS PostgreSQL 数据库复制到 1 个 Redshift 数据库 -完整

回答 1 投票 0

我们可以在 AWS Glue 中使用 java 进行 ETL 吗?

我们可以在 AWS Glue 中使用 java 进行 ETL 吗? Glue ETL 编程似乎只有两种选择,即 Python 和 Scala。

回答 2 投票 0

目录中不存在胶水表

我正在将 json 文件转换为 parquet 格式,但收到错误“Glue Table 不存在”以下是代码: 将 awswrangler 导入为 wr 将 pandas 导入为 pd 导入 urllib.parse 小鬼...

回答 1 投票 0

我应该在 EMR 上使用 AWS Glue 或 Spark 将二进制数据处理为 parquet 格式吗

我的工作要求是从传感器读取二进制数据并为 Analytics 生成镶木地板输出结果。 对于存储,我选择了 s3 和 Dynamodb。 对于处理引擎,我很困惑...

回答 2 投票 0

是否有一种轻松的方法将现有 Parquet 文件迁移到新架构?我希望更新 AWS Glue 表列数据类型

背景 我们使用 AWS Glue 4.0 进行 ETL 处理作业。 每个 Glue 作业 (PySpark) 都会读取和写入 AWS Glue 表。这些表是使用 CloudFormation 模板定义的,并将数据存储为 P...

回答 1 投票 0

胶水作业从 Redshift 读取大量数据时出现性能问题

我正在尝试运行查询以通过 AWS Glue 作业从 redshift 表中读取数据。当它从表中读取数据时,它创建只有 1 个分区的数据帧,并且需要花费大量时间来读取......

回答 1 投票 0

AWS Glue 中的可选作业参数?

如何为 AWS Glue 作业实施可选参数? 我创建了一个作业,当前有一个字符串参数(ISO 8601 日期字符串)作为 ETL 作业中使用的输入。我会...

回答 8 投票 0

AWS:使用可执行文件处理从 S3 输入存储桶到 S3 输出存储桶的所有数据

我有以下用例: 在 S3 输入存储桶上,我有大量日志文件(例如 100K 对象中的 5 TB)。我需要使用可转换的自定义可执行文件来处理这些日志文件...

回答 2 投票 0

AWS Glue 作业输入参数

我对 AWS 比较陌生,这可能是一个不太技术性的问题,但目前 AWS Glue 注明最多允许创建 25 个工作岗位。我们正在加载一系列表格,每个表格......

回答 2 投票 0

运行 Glue ETL 作业时出现 CommandFailedException

当我尝试运行 Glue ETL 作业时,出现以下错误: CommandFailedException:脚本文件不存在 s3://my-bucket/my-script.py 我仔细检查了路径,它是正确的。我可以看到...

回答 1 投票 0

AWS Sagemaker Jupyter 笔记本中的记录器输出

我想查看我在 AWS Sagemaker JupyterLab 笔记本(使用 Glue 开发终端节点)内创建的自定义日志。我想将它们视为笔记本单元的输出。 我试过了...

回答 2 投票 0

为什么 Python Glue Job 会为我的 Job 参数抛出 KeyError?

我定义了一个 Python Shell 类型的简单 Glue Job: 导入系统 从 awsglue.utils 导入 getResolvedOptions args = getResolvedOptions(sys.argv, [ '测试参数' ]) 值 = args["测试-

回答 1 投票 0

起始位置和检查点的组合在 Kinesis Data Streams 中如何工作?

我正在将 Glue Streaming 作业与 Kinesis Data Stream 结合使用。我希望我的胶水作业始终从最后一个未处理的记录中读取(以防作业出现故障并重新启动)。 相关代码- df =glueContext.

回答 1 投票 0

将 Spark 数据帧转换为 awsglue 动态框架

我尝试将我的 Spark 数据帧转换为动态以输出为glueparquet 文件,但我收到错误 “DataFrame”对象没有属性“fromDF”” 我的代码大量使用 Spark 数据帧。是

回答 3 投票 0

从本地 Spark 访问 AWS Glue

有什么方法可以针对 AWS Glue 运行本地主 Spark SQL 查询吗? 在我的本地 PC 上启动此代码: SparkSession.builder() .master("本地") .enableHiveSupport() .config("蜂巢.

回答 2 投票 0

如何将数据从 Glue 移动到 Dynamodb

我们正在为我们的一个仪表板应用程序设计一个大数据解决方案,并认真考虑将 Glue 用于我们的初始 ETL。目前 Glue 支持 JDBC 和 S3 作为目标,但我们的下游

回答 5 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.