AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。
已成功导入 Glue 脚本的 Python 包,但未成功导入 Lambda 函数
我的 S3 存储桶上有一个名为 pg8000.zip 的 .zip 文件: mybucket/devops/pg8000.zip 它目前用于 Glue 4.0 脚本,如下所示,在 Python 库字段中: s3://mybucket/devops/...
AWS Glue:ModuleNotFoundError:没有名为“data_transformations_app”的模块
我正在 AWS 上运行 ETL 粘合作业。 它指的是 S3 中的一个文件夹,其中包含 zip 文件中的 main 函数。 路径是正确的,我已经检查过多次了。 出于某种原因,我不断...
awsglue 是否直接从 eventbridge 接受事件
您可以将事件直接从AWS事件桥传递到AWS胶水吗? AWSglue是否每次都会创建一个新的集群来处理事件?该事件的处理时间是多少?
使用 AWS Glue Crawler 创建列名称时删除/重命名特殊字符
我正在使用 AWS Glue Crawler 爬网 S3 存储桶,它在 Athena 中创建表架构。 我了解 Athena 不支持具有 \(反斜杠)等特殊字符的列名称。 是
将表从 AWS PostgreSQL 复制到 Redshift 的最佳方法
我正在寻找一种将许多表从AWS PostgreSQL复制到Redshift数据库的最佳方法,如下要求: -我们需要将大约 90 个表从 7 个 AWS PostgreSQL 数据库复制到 1 个 Redshift 数据库 -完整
我们可以在 AWS Glue 中使用 java 进行 ETL 吗?
我们可以在 AWS Glue 中使用 java 进行 ETL 吗? Glue ETL 编程似乎只有两种选择,即 Python 和 Scala。
我正在将 json 文件转换为 parquet 格式,但收到错误“Glue Table 不存在”以下是代码: 将 awswrangler 导入为 wr 将 pandas 导入为 pd 导入 urllib.parse 小鬼...
我应该在 EMR 上使用 AWS Glue 或 Spark 将二进制数据处理为 parquet 格式吗
我的工作要求是从传感器读取二进制数据并为 Analytics 生成镶木地板输出结果。 对于存储,我选择了 s3 和 Dynamodb。 对于处理引擎,我很困惑...
是否有一种轻松的方法将现有 Parquet 文件迁移到新架构?我希望更新 AWS Glue 表列数据类型
背景 我们使用 AWS Glue 4.0 进行 ETL 处理作业。 每个 Glue 作业 (PySpark) 都会读取和写入 AWS Glue 表。这些表是使用 CloudFormation 模板定义的,并将数据存储为 P...
我正在尝试运行查询以通过 AWS Glue 作业从 redshift 表中读取数据。当它从表中读取数据时,它创建只有 1 个分区的数据帧,并且需要花费大量时间来读取......
如何为 AWS Glue 作业实施可选参数? 我创建了一个作业,当前有一个字符串参数(ISO 8601 日期字符串)作为 ETL 作业中使用的输入。我会...
AWS:使用可执行文件处理从 S3 输入存储桶到 S3 输出存储桶的所有数据
我有以下用例: 在 S3 输入存储桶上,我有大量日志文件(例如 100K 对象中的 5 TB)。我需要使用可转换的自定义可执行文件来处理这些日志文件...
我对 AWS 比较陌生,这可能是一个不太技术性的问题,但目前 AWS Glue 注明最多允许创建 25 个工作岗位。我们正在加载一系列表格,每个表格......
运行 Glue ETL 作业时出现 CommandFailedException
当我尝试运行 Glue ETL 作业时,出现以下错误: CommandFailedException:脚本文件不存在 s3://my-bucket/my-script.py 我仔细检查了路径,它是正确的。我可以看到...
AWS Sagemaker Jupyter 笔记本中的记录器输出
我想查看我在 AWS Sagemaker JupyterLab 笔记本(使用 Glue 开发终端节点)内创建的自定义日志。我想将它们视为笔记本单元的输出。 我试过了...
为什么 Python Glue Job 会为我的 Job 参数抛出 KeyError?
我定义了一个 Python Shell 类型的简单 Glue Job: 导入系统 从 awsglue.utils 导入 getResolvedOptions args = getResolvedOptions(sys.argv, [ '测试参数' ]) 值 = args["测试-
起始位置和检查点的组合在 Kinesis Data Streams 中如何工作?
我正在将 Glue Streaming 作业与 Kinesis Data Stream 结合使用。我希望我的胶水作业始终从最后一个未处理的记录中读取(以防作业出现故障并重新启动)。 相关代码- df =glueContext.
我尝试将我的 Spark 数据帧转换为动态以输出为glueparquet 文件,但我收到错误 “DataFrame”对象没有属性“fromDF”” 我的代码大量使用 Spark 数据帧。是
有什么方法可以针对 AWS Glue 运行本地主 Spark SQL 查询吗? 在我的本地 PC 上启动此代码: SparkSession.builder() .master("本地") .enableHiveSupport() .config("蜂巢.
我们正在为我们的一个仪表板应用程序设计一个大数据解决方案,并认真考虑将 Glue 用于我们的初始 ETL。目前 Glue 支持 JDBC 和 S3 作为目标,但我们的下游