为什么使用Hadoop为什么会有Spark?

问题描述 投票:0回答:2

任何人都可以提供一些指导,因为当Spark可用时为什么我们应该使用Hadoop?众所周知,Spark最初是为了解决Hadoop的局限性而创建的?

谢谢。

apache-spark hadoop
2个回答
2
投票

Hadoop具有多个组件,包括分布式文件系统HDFS,并行数据处理框架MapReduce和宽列存储HBase。

虽然Spark可以看作是具有通用数据流(DAG)的MapReduce的下一代版本,但Spark不能替代HDFS或HBase。相反,它可以使用来自HDFS和HBase的数据作为输入,并将数据写回它们。

我希望这会有所帮助!


0
投票

spark和hadoop都是基于mapreduce的概念。但是,由于其内存计算功能,火花更快。 Spark演变为Spark sql,mlib,streaming,但是hadoop具有其他独立的无关组件来支持这些功能,例如pig,hive。所有火花组件在一个组件下的组织方式大大推动了它的发展。现在,由于hadoop的抽象程度不如spark,因此它在自定义方面提供了更大的独立性,尤其是在map和reduce阶段。但是,如果发生火花,则会对这些自定义进行抽象。\

© www.soinside.com 2019 - 2024. All rights reserved.