在批处理方面,Join和Reduce之间的主要区别是什么?
联接将等待所有任务完成(需要合并),但是reduce不会等待。
但是,与上图中描述的连接模式相反,reduce的目标不是等待所有数据都已处理,而是乐观地将所有并行数据项合并为一个单独的全面表示全套。
这是对连接模式的幸运对比,因为与连接不同,这意味着可以并行开始reduce,同时仍在进行处理映射/碎片阶段。当然,为了产生完整的输出,所有数据必须最终处理,但是尽早开始的能力意味着批处理计算的整体执行速度更快。