AWS EMR Hadoop管理

问题描述 投票:0回答:2

我们当前在组织中使用Apache Hadoop(Vanilla版本)。我们正计划迁移到AWS EMR。我试图了解AWS EMR Hadoop在内部如何工作(而不是如何使用它),我主要对Hadoop管理步骤以及主从通信方式以及各种配置配置感兴趣。我已经检查了AWS EMR文档,但没有看到详细的比较。

有人可以向我推荐用于从Apache Hadoop迁移到AWS EMR的链接/教程。

hadoop amazon-web-services emr
2个回答
0
投票

Amazon Elastic MapReduce使用Hadoop和相关工具的大多数标准实现。

参见:AMI Versions Supported in Amazon EMR

使用EMR的好处在于实例的自动部署。例如,使用适当的AMI启动集群意味着已经在每个实例上加载了软件,并且在核心节点上配置了HDFS。

主节点和从节点(核心/任务)节点的通信方式与它们在任何Hadoop集群中进行通信的方式完全相同。但是,仅支持一个Master(没有备份Master)。

[迁移到EMR时,请检查您是否使用兼容版本的软件(例如Hadoop,Hive,Pig,Impala等)。还应考虑使用Amazon S3而不是HDFS来存储数据,尤其是用于存储源数据,因为即使EMR集群终止后,S3上的数据仍然存在。]


0
投票

在EMR群集创建期间,它将要求您指定“主节点”和“节点”。默认设置将为您配置1个主节点和2个节点。您还可以指定要在集群中使用的所有应用程序(例如:hadoop,hive,spark,zeppelin,hue等)。

© www.soinside.com 2019 - 2024. All rights reserved.