AWS EMR 集群中元数据的 AWS 粘合数据目录

问题描述 投票:0回答:1

我们计划使用AWS EMR集群来处理json和parquet文件。我有一个基本问题,在 AWS EMR 集群中提交 Spark 作业时,我们是否真的需要 aws 数据目录来处理存储在 S3 存储桶中的 json 和 parquet 文件?使用 AWS EMR 时使用 AWSglue 数据目录有什么优势?

amazon-web-services pyspark aws-glue amazon-emr
1个回答
0
投票

在数据仓库或数据湖中,Glue 数据目录提供了创建和管理元数据的方法。

在数据仓库和数据湖中,它是有效数据管理的支柱。它提供了对系统内存储的数据的宝贵见解,并增强了数据理解、治理、集成和可访问性。

© www.soinside.com 2019 - 2024. All rights reserved.