我一直在寻找Spark和MapReduce之间的区别,而我真正发现的是Spark在内存和磁盘中运行,这使其运行速度显着提高。
我还阅读到MapReduce对于真正的海量数据集更好,是因为您可以将更多的数据加载到磁盘上而不是存储在内存中?
但是大概是使用Spark,无论如何,您都是在内存和磁盘之间移动数据,因此,如果内存空间不足,则将某些内容移回磁盘,然后引入新数据进行处理。
基本上,有没有真正的理由使用MapReduce?
据我所知,这是Spark和Hadoop Map Reduce的简单而罕见的解决方案:
[Hadoop Map Reduce是批处理。
在HDFS中,高延迟。这是有关Hadoop MapReduce和Spark的完整说明:
http://commandstech.com/basic-difference-between-spark-and-map-reduce-with-examples/
火花:
来到Spark正在进行流处理。
由于RDD而导致的低延迟。
Spark和Hadoop Map Reduce用于以更少的代码进行大量数据处理。