亚马逊EC2与亚马逊EMR [已结束]

问题描述 投票:17回答:3

我在Hive中实现了一项任务。目前它在我的单节点集群上工作正常。现在我打算在AWS上部署它。

我对AWS一无所知。如果我计划部署它,那么我应该选择Amazon EC2或Amazon EMR?

我想改善我的任务的表现。哪一个更好,更可靠?如何接近他们?我听说我们也可以在AWS上注册我们的VM设置。可能吗?

请尽快建议我。

非常感谢。

amazon-ec2 amazon-web-services hive amazon-emr
3个回答
25
投票

EMR是EC2实例的集合,其上安装并配置了Hadoop(以及可选的Hive和/或Pig)。如果您使用群集来运行Hadoop / Hive / Pig作业,则可以使用EMR。与EC2实例相比,EMR实例的成本略高。今天对亚马逊价格的快速检查显示,小型EC2实例每小时花费0.08美元,而小型EMR实例每小时花费0.015美元。在我看来,为了省去安装和设置Hadoop(以及Hive和Pig),创建和维护以及AMI和使用它的麻烦,完全值得付出额外的钱。此外,EMR的Hadoop和Hive版本有一些在Apache Hive上不可用(至少,尚未)的补丁。如果您使用EC2,您可能会使用Apache Hadoop和Hive(或者可能是cloudera发行版),并且无法访问这些补丁(例如对S3的本机支持或ALTER TABLE my_table RECOVER PARTITIONS等命令

参考文献:


5
投票

我建议你不要尝试部署自己的Hadoop集群,除非你有2-3个月的时间,并且你有一个hadoop专家。

通过提供预先配置的hadoop环境,Elastic MapReduce将允许您快速入门。看你只有一份工作,应该没问题。


1
投票

总的来说,从历史上看,EMR远远落后于最新版本的Hadoop组件,有些则完全缺失。这是使用其他发行版的主要原因。例如,如果你想要HBase,它不在EMR中,但不是。今天,Spark没有EMR。 EMR通常会滞后。

也就是说,如果您没有使用最新和最好的功能,请使用EMR。

© www.soinside.com 2019 - 2024. All rights reserved.