为什么使用Hadoop为什么会有Spark？

问题描述投票：0回答：2

任何人都可以提供一些指导，因为当Spark可用时为什么我们应该使用Hadoop？众所周知，Spark最初是为了解决Hadoop的局限性而创建的？

谢谢。

apache-spark

hadoop

2个回答

2
投票

Hadoop具有多个组件，包括分布式文件系统HDFS，并行数据处理框架MapReduce和宽列存储HBase。

虽然Spark可以看作是具有通用数据流（DAG）的MapReduce的下一代版本，但Spark不能替代HDFS或HBase。相反，它可以使用来自HDFS和HBase的数据作为输入，并将数据写回它们。

我希望这会有所帮助！

0
投票

spark和hadoop都是基于mapreduce的概念。但是，由于其内存计算功能，火花更快。 Spark演变为Spark sql，mlib，streaming，但是hadoop具有其他独立的无关组件来支持这些功能，例如pig，hive。所有火花组件在一个组件下的组织方式大大推动了它的发展。现在，由于hadoop的抽象程度不如spark，因此它在自定义方面提供了更大的独立性，尤其是在map和reduce阶段。但是，如果发生火花，则会对这些自定义进行抽象。\

为什么使用Hadoop为什么会有Spark？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2