aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

如何将数据从 Glue 移动到 Dynamodb

我们正在为我们的一个仪表板应用程序设计一个大数据解决方案,并认真考虑将 Glue 用于我们的初始 ETL。目前 Glue 支持 JDBC 和 S3 作为目标,但我们的下游

回答 5 投票 0

参数“--python-modules-installer-option”在 pythonshell Glue Jobs 中不起作用

我正在尝试进行与本文类似的设置:https://aws.amazon.com/blogs/big-data/simplify-and-optimize-python-package-management-for-aws-glue -pyspark-jobs-with-aws-codeartifact/ 我...

回答 2 投票 0

来自 Lambda 的触发器 Glue - S3 事件触发器 - 调用 StartJobRun 操作时发生错误 (AccessDeniedException):用户:

我正在尝试从 Lambda 触发胶水作业。它失败并出现以下错误: 调用 StartJobRun 操作时发生错误 (AccessDeniedException): 用户: JSON: 回复 { ”

回答 1 投票 0

如何修复调用 HeadObject 操作时出现“(403):禁止”的问题

我正在尝试运行 Spark AWS Glue 作业。 我已将 .py 文件上传到 S3 存储桶,我们将其称为 jobfiles_s3_bucket。 当胶水作业运行时,它会尝试将 .py 从 jobfiles 存储桶复制到

回答 1 投票 0

如何将awsglue文件输出写入特定名称

我有一个 awsglue python 作业,它连接两个 Aurora 表并将输出以 json 格式写入/接收到 s3 存储桶。工作进展顺利,符合预期。默认情况下,输出文件写入 s3 buc...

回答 2 投票 0

带有入口点文件问题的Xgboost算法

我正在尝试创建 awsgluespark 作业来训练其中一个数据集。我在1.3-1版本中使用xgboost算法。当我尝试运行估算器时,我遇到了问题 基础设施:awsglue...

回答 1 投票 0

我尝试使用 AWS Glue 将数据从 S3 传输到 Amazon Redshift,但在调用 o209.pyWriteDynamicFrame 时发生错误。我该怎么办?

我正在尝试使用 AWS Glue 将一些 CSV 格式的数据从 S3 存储桶传输到 Amazon Redshift 中的表。但是,我的工作失败并出现以下错误: 错误类别:UNCCLASSIFIED_ERROR;一个

回答 1 投票 0

如何在 Glue ETL 作业中实现跨账户架构更改?

我有一个简单的 Glue ETL 作业: 源 = 关系数据库表(使用 JDBC Glue 连接) 目标 = S3 存储桶 更新选项 =“在数据目录中创建一个表,并在后续运行中,u...

回答 1 投票 0

AWS Glue 最大和转换行

我正在尝试从源存储桶 S1 加载使用 AWSglue 创建的表之一中的数据。 源存储桶有 4 列( session_id、Date、type、action ),其值如下。购买交易l...

回答 1 投票 0

aws数据管道触发awsglue爬虫

我有一个带有 EMR 活动的 Aws 数据管道,它在 S3 上写入数据。在此过程结束时,它还会将一些元数据写入该位置的特定 S3 文件夹。 有没有办法触发...

回答 2 投票 0

当 AWS Glue 作业提供 Amazon Redshift 数据库时避免重复数据

如何防止使用 AWS Glue 作业将重复数据传输到 Amazon Redshift 表?我有一个场景,其中每日 CSV 文件添加到 S3 存储桶中,而我的 Glue 作业则用于传输数据...

回答 2 投票 0

将csv文件的数据递归传输到redshift

我有一个场景,s3 中有大约 90 个 CSV 文件,我希望我的胶水作业一次选择一个文件(不是一次全部)并将数据加载到红移。我怎样才能实现这个目标? 我不知道什么...

回答 1 投票 0

Glue Dynamic Frame 比普通 Spark 慢得多

在下图中,我们使用三种不同配置运行相同的胶水作业,以了解如何写入 S3: 我们使用动态帧写入S3 我们用纯spark框架写信给S...

回答 1 投票 0

从 Java 下载和上传 AWS Glue ETL 的 ETL 作业

有人可以告诉我如何使用 Java API 下载或上传作业吗? 我尝试搜索 SDK 或 REST API 来下载作业,但没有找到。 有一个API可以删除作业,...

回答 1 投票 0

有没有开源工具可以将informatica Etl脚本迁移到Awsglue?

我们正在放弃 Informatica。 我们有大约 50 个作业,希望将 Informatica 中的旧 etl 脚本转换为 AWSglue。 研究了aws sct,但没有用。 我们希望它开放......

回答 1 投票 0

如何在 Step Function 中包含 AWS Glue 爬网程序

这是我的要求: 我在 AWS Glue 中有一个爬虫和一个 pyspark 作业。我必须使用步骤功能设置工作流程。 问题: 如何将 Crawler 添加为第一个状态。参数是什么...

回答 2 投票 0

使用 Node.JS 调用 AWSglue 的 lambda 函数没有 console.log 的原因?

我正在尝试使用 lambda 函数和 node.js 启动 AWS 粘合作业。我可以很好地测试 lambda 函数,但在脚本运行完毕后似乎没有任何反应。我添加了一些

回答 1 投票 0

AWS Glue 错误 ModuleNotFoundError:没有名为“pyodbc”的模块

我想使用 python 脚本连接到 Microsoft SQL Server,该脚本将在 AWS Glue 上执行。我在安全配置->脚本库->作业参数(可选)中添加了作业参数...

回答 2 投票 0

AWS EMR 集群中元数据的 AWS 粘合数据目录

我们计划使用AWS EMR集群来处理json和parquet文件。我有一个基本问题,我们真的需要 aws 数据目录来处理存储在 S3 中的 json 和 parquet 文件...

回答 1 投票 0

将 AWS Glue 连接到本地 MySQL 时出现问题,是 AWS VPC 吗?

我在 AWS 外部托管的私有 Ubuntu 实例上运行 MySQL。我的 S3 存储桶中有几个 CSV 文件,我想使用 AWS Glue ETL 将其加载到我的 MySQL 数据库中。 我其实在关注...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.