aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

AWS Sagemaker Jupyter 笔记本中的记录器输出

我想查看我在 AWS Sagemaker JupyterLab 笔记本(使用 Glue 开发终端节点)内创建的自定义日志。我想将它们视为笔记本单元的输出。 我试过了...

回答 2 投票 0

为什么 Python Glue Job 会为我的 Job 参数抛出 KeyError?

我定义了一个 Python Shell 类型的简单 Glue Job: 导入系统 从 awsglue.utils 导入 getResolvedOptions args = getResolvedOptions(sys.argv, [ '测试参数' ]) 值 = args["测试-

回答 1 投票 0

起始位置和检查点的组合在 Kinesis Data Streams 中如何工作?

我正在将 Glue Streaming 作业与 Kinesis Data Stream 结合使用。我希望我的胶水作业始终从最后一个未处理的记录中读取(以防作业出现故障并重新启动)。 相关代码- df =glueContext.

回答 1 投票 0

将 Spark 数据帧转换为 awsglue 动态框架

我尝试将我的 Spark 数据帧转换为动态以输出为glueparquet 文件,但我收到错误 “DataFrame”对象没有属性“fromDF”” 我的代码大量使用 Spark 数据帧。是

回答 3 投票 0

从本地 Spark 访问 AWS Glue

有什么方法可以针对 AWS Glue 运行本地主 Spark SQL 查询吗? 在我的本地 PC 上启动此代码: SparkSession.builder() .master("本地") .enableHiveSupport() .config("蜂巢.

回答 2 投票 0

如何将数据从 Glue 移动到 Dynamodb

我们正在为我们的一个仪表板应用程序设计一个大数据解决方案,并认真考虑将 Glue 用于我们的初始 ETL。目前 Glue 支持 JDBC 和 S3 作为目标,但我们的下游

回答 5 投票 0

参数“--python-modules-installer-option”在 pythonshell Glue Jobs 中不起作用

我正在尝试进行与本文类似的设置:https://aws.amazon.com/blogs/big-data/simplify-and-optimize-python-package-management-for-aws-glue -pyspark-jobs-with-aws-codeartifact/ 我...

回答 2 投票 0

来自 Lambda 的触发器 Glue - S3 事件触发器 - 调用 StartJobRun 操作时发生错误 (AccessDeniedException):用户:

我正在尝试从 Lambda 触发胶水作业。它失败并出现以下错误: 调用 StartJobRun 操作时发生错误 (AccessDeniedException): 用户: JSON: 回复 { ”

回答 1 投票 0

如何修复调用 HeadObject 操作时出现“(403):禁止”的问题

我正在尝试运行 Spark AWS Glue 作业。 我已将 .py 文件上传到 S3 存储桶,我们将其称为 jobfiles_s3_bucket。 当胶水作业运行时,它会尝试将 .py 从 jobfiles 存储桶复制到

回答 1 投票 0

如何将awsglue文件输出写入特定名称

我有一个 awsglue python 作业,它连接两个 Aurora 表并将输出以 json 格式写入/接收到 s3 存储桶。工作进展顺利,符合预期。默认情况下,输出文件写入 s3 buc...

回答 2 投票 0

带有入口点文件问题的Xgboost算法

我正在尝试创建 awsgluespark 作业来训练其中一个数据集。我在1.3-1版本中使用xgboost算法。当我尝试运行估算器时,我遇到了问题 基础设施:awsglue...

回答 1 投票 0

我尝试使用 AWS Glue 将数据从 S3 传输到 Amazon Redshift,但在调用 o209.pyWriteDynamicFrame 时发生错误。我该怎么办?

我正在尝试使用 AWS Glue 将一些 CSV 格式的数据从 S3 存储桶传输到 Amazon Redshift 中的表。但是,我的工作失败并出现以下错误: 错误类别:UNCCLASSIFIED_ERROR;一个

回答 1 投票 0

如何在 Glue ETL 作业中实现跨账户架构更改?

我有一个简单的 Glue ETL 作业: 源 = 关系数据库表(使用 JDBC Glue 连接) 目标 = S3 存储桶 更新选项 =“在数据目录中创建一个表,并在后续运行中,u...

回答 1 投票 0

AWS Glue 最大和转换行

我正在尝试从源存储桶 S1 加载使用 AWSglue 创建的表之一中的数据。 源存储桶有 4 列( session_id、Date、type、action ),其值如下。购买交易l...

回答 1 投票 0

aws数据管道触发awsglue爬虫

我有一个带有 EMR 活动的 Aws 数据管道,它在 S3 上写入数据。在此过程结束时,它还会将一些元数据写入该位置的特定 S3 文件夹。 有没有办法触发...

回答 2 投票 0

当 AWS Glue 作业提供 Amazon Redshift 数据库时避免重复数据

如何防止使用 AWS Glue 作业将重复数据传输到 Amazon Redshift 表?我有一个场景,其中每日 CSV 文件添加到 S3 存储桶中,而我的 Glue 作业则用于传输数据...

回答 2 投票 0

将csv文件的数据递归传输到redshift

我有一个场景,s3 中有大约 90 个 CSV 文件,我希望我的胶水作业一次选择一个文件(不是一次全部)并将数据加载到红移。我怎样才能实现这个目标? 我不知道什么...

回答 1 投票 0

Glue Dynamic Frame 比普通 Spark 慢得多

在下图中,我们使用三种不同配置运行相同的胶水作业,以了解如何写入 S3: 我们使用动态帧写入S3 我们用纯spark框架写信给S...

回答 1 投票 0

从 Java 下载和上传 AWS Glue ETL 的 ETL 作业

有人可以告诉我如何使用 Java API 下载或上传作业吗? 我尝试搜索 SDK 或 REST API 来下载作业,但没有找到。 有一个API可以删除作业,...

回答 1 投票 0

有没有开源工具可以将informatica Etl脚本迁移到Awsglue?

我们正在放弃 Informatica。 我们有大约 50 个作业,希望将 Informatica 中的旧 etl 脚本转换为 AWSglue。 研究了aws sct,但没有用。 我们希望它开放......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.