aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

自动执行外部hive / athena表分区管理

我目前有一个大数据架构,其中一些数据管道生成数据输出并将其存储在AWS S3上。我还有一个内部元数据存储,我跟踪每个S3网址和...

回答 1 投票 1


AWS Glue通过API创建触发器

我有一张表,其中包含几个不同工作的时间表。我想处理记录并通过AWS Glue API创建触发器。 http://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html ......

回答 2 投票 1

AWS粘合剂每次都会将完整数据从源复制到目标,即使有书签也是如此

我在aws glue控制台中从向导生成了一个胶水作业。我没有在生成任务时更改默认脚本。它从posgres数据库表(源)获取数据并写入......

回答 1 投票 2

AWS Glue中的简单ETL工作说“文件已经存在”

我们正在使用一些ETL评估AWS Glue的大数据项目。我们添加了一个爬虫程序,它正在从S3中正确地获取CSV文件。最初,我们只想将CSV转换为JSON,然后放弃......

回答 2 投票 2

是否可以使用Jupyter Notebook for AWS Glue而不是Zeppelin

我开始使用AWS Glue作为我的数据ETL。我已经将我的数据源导入到我的AWS数据目录中,并且即将为我的一个特定Postgres数据库中的数据创建一个作业...

回答 1 投票 2

我可以使用AWS Glue将S3上的json数据转换为柱状格式并将其推送到Redshift吗?

我在S3上有嵌套JSON格式的数据,不断更新。我希望数据在转换后定期将此数据推送到Redshift集群。 AWS Glue可以帮助您配置...

回答 1 投票 0

亚马逊雅典娜不使用胶水目录

我使用aws glue crawler创建了一个带有表的数据库。在athena,我无法选择该数据库/表进行查询。我认为问题可以在服务区域位置。我的设置是下一个:s3 csv ...

回答 1 投票 2

从aws glue pyspark作业中的s3加载JSON

我正在尝试从glue pyspark脚本中的s3存储桶中检索JSON文件。我在aws glue中的作业中运行这个函数:def run(spark):s3_bucket_path ='s3:// bucket / data / ...

回答 1 投票 0

寻找更好的架构来从生产数据库生成报告

在我工作的公司中,我要做的工作之一就是使用存储在...中的数据编写程序来生成业务报告(例如,上个月访问过我们网站的用户数)。

回答 1 投票 0

AWS Glue输出文件名

我正在使用AWS来转换一些JSON文件。我已将文件添加到S3的Glue中。我设置的作业在ok中读取文件,作业成功运行,有一个文件添加到正确的S3 ...

回答 1 投票 6

AWS Glue ETL作业缺少对爬网程序可见的字段

我有一个由爬虫创建的表,指向存储在s3中的一些镶木地板文件。从Glue数据目录GUI中我可以看到许多字段(53)。当我打开ETL dev端点并与...连接时

回答 3 投票 1

AWS Glue to Redshift:是否可以替换,更新或删除数据?

以下是关于如何设置内容的一些要点:我将CSV文件上传到S3,并使用Glue爬虫设置来创建表和架构。我有一个写入数据的胶水作业设置......

回答 6 投票 18

AWS Glue Crawler无法提取CSV标头

在我的智慧结束这里...我有15个csv文件,我从直线查询生成如:beeline -u CONN_STR --outputformat = dsv -e“SELECT ...”> data.csv我选择dsv因为一些字符串...

回答 1 投票 0

使用AWS Lambda从AWS SNS读取时修改JSON消息

我有一个上游应用程序向SNS主题发送以下JSON消息。我们使用AWS lambda函数在S3中保存此JSON对象:{“processResult”:{“processName”:“XYZ”,“...

回答 1 投票 0

我们可以将AWS Glue视为EMR的替代品吗?

只是一个简单的问题,从Masters澄清,因为AWS Glue作为ETL工具,可以通过避免过度配置为公司提供诸如最小或无服务器维护,节省成本等好处......

回答 3 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.