aws-glue 相关问题

AWS Glue是一种完全托管的ETL(提取,转换和加载)服务,可以对数据进行分类,清理,丰富数据,并在各种数据存储之间移动数据。 AWS Glue包含一个称为AWS Glue Data Catalog的中央数据存储库,一个自动生成Python代码的ETL引擎,以及一个处理依赖项解析,作业监控和重试的调度程序。 AWS Glue无服务器,因此无需管理基础架构。

在AWS中创建Glue作业时如何修复资源编号LimitExceededException?

我正在尝试创建AWS Glue作业,创建失败,出现以下异常:{“service”:“AWSGlue”,“statusCode”:400,“errorCode”:“ResourceNumberLimitExceededException”,“requestId”:“XXXX”,“ ...

回答 1 投票 0

定期安排AWS Glue爬虫的用途是什么。运行一次似乎就足够了

我已经根据S3存储桶的内容创建了一个AWS胶水表。这允许我使用AWS Athena查询此S3存储桶中的数据。我已经定义了一个AWS Glue抓取工具并运行一次以自动确定...

回答 1 投票 0

从PySpark批量加载到AWS RDS(postgres)

我正在寻找一个批量加载器,用于将胶水作业加载到RDS,使用PySpark脚本和DataFormatWriter。我有这个为RedShift工作如下:df.write \ .format(“com.databricks ....

回答 2 投票 0

glue dpu与max concurrency之间的关系

我已经在亚马逊EMR上工作了一年多,但最近我们已经转向使用aws胶水进行数据处理。我很难理解dpus和max之间的关系......

回答 1 投票 1

针对AWS EMR的AWS Glue定价

我正在对AWS Glue与AWS EMR进行一些定价比较,以便在EMR和Glue之间进行选择。我已经考虑了6个DPU(4个vCPU + 16 GB内存),ETL作业运行10分钟...

回答 2 投票 5

AWS Glue Catalog作业上的MSCK Repair Command

我们是否可以安排AWS Glue作业执行MSCK修复命令,以便将新添加的分区的元数据添加到Glue目录中?可以Glue ETL脚本执行MSCK REPAIR TABLE命令...

回答 2 投票 0

Spark覆盖到镶木地板文件的特定分区

我有一个由数十亿(20)条记录组成的巨大表格,我的源文件作为输入是目标镶木地板文件。我每天都会收到一个delta传入文件来更新Target中的现有记录...

回答 1 投票 0

AWS Glue不会对我的数据进行分类

我有一个html文件,其结构如下:

回答 1 投票 1

AWS Glue API无法识别带连字符的分区

我在S3中有按类别和日期分区的数据,如下所示:s3://mybucket/category=1/date=2018-08-30/data1.json s3:// mybucket / category = 1 / date = 2018- 08-31 / data2.json s3:// mybucket / category = 2 / ...

回答 1 投票 0

AWS Glue中的AWS区域

如何获取当前Glue作业执行的区域?当胶水作业开始执行时,我看到输出检测区域eu-central-1。在AWS Lambda中,我可以使用以下内容......

回答 1 投票 0

自动执行外部hive / athena表分区管理

我目前有一个大数据架构,其中一些数据管道生成数据输出并将其存储在AWS S3上。我还有一个内部元数据存储,我跟踪每个S3网址和...

回答 1 投票 1


AWS Glue通过API创建触发器

我有一张表,其中包含几个不同工作的时间表。我想处理记录并通过AWS Glue API创建触发器。 http://docs.aws.amazon.com/glue/latest/dg/aws-glue-api.html ......

回答 2 投票 1

AWS粘合剂每次都会将完整数据从源复制到目标,即使有书签也是如此

我在aws glue控制台中从向导生成了一个胶水作业。我没有在生成任务时更改默认脚本。它从posgres数据库表(源)获取数据并写入......

回答 1 投票 2

AWS Glue中的简单ETL工作说“文件已经存在”

我们正在使用一些ETL评估AWS Glue的大数据项目。我们添加了一个爬虫程序,它正在从S3中正确地获取CSV文件。最初,我们只想将CSV转换为JSON,然后放弃......

回答 2 投票 2

是否可以使用Jupyter Notebook for AWS Glue而不是Zeppelin

我开始使用AWS Glue作为我的数据ETL。我已经将我的数据源导入到我的AWS数据目录中,并且即将为我的一个特定Postgres数据库中的数据创建一个作业...

回答 1 投票 2

我可以使用AWS Glue将S3上的json数据转换为柱状格式并将其推送到Redshift吗?

我在S3上有嵌套JSON格式的数据,不断更新。我希望数据在转换后定期将此数据推送到Redshift集群。 AWS Glue可以帮助您配置...

回答 1 投票 0

亚马逊雅典娜不使用胶水目录

我使用aws glue crawler创建了一个带有表的数据库。在athena,我无法选择该数据库/表进行查询。我认为问题可以在服务区域位置。我的设置是下一个:s3 csv ...

回答 1 投票 2

从aws glue pyspark作业中的s3加载JSON

我正在尝试从glue pyspark脚本中的s3存储桶中检索JSON文件。我在aws glue中的作业中运行这个函数:def run(spark):s3_bucket_path ='s3:// bucket / data / ...

回答 1 投票 0

寻找更好的架构来从生产数据库生成报告

在我工作的公司中,我要做的工作之一就是使用存储在...中的数据编写程序来生成业务报告(例如,上个月访问过我们网站的用户数)。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.