批量处理中加入Vs减少

问题描述 投票:1回答:1

在批处理方面,Join和Reduce之间的主要区别是什么?

join mapreduce batch-processing distributed-computing distributed-system
1个回答
0
投票

联接将等待所有任务完成(需要合并),但是reduce不会等待。

enter image description here

但是,与上图中描述的连接模式相反,reduce的目标不是等待所有数据都已处理,而是乐观地将所有并行数据项合并为一个单独的全面表示全套。

这是对连接模式的幸运对比,因为与连接不同,这意味着可以并行开始reduce,同时仍在进行处理映射/碎片阶段。当然,为了产生完整的输出,所有数据必须最终处理,但是尽早开始的能力意味着批处理计算的整体执行速度更快。

© www.soinside.com 2019 - 2024. All rights reserved.