python多处理是否可以与Hadoop流一起使用?

问题描述 投票:0回答:1

在Hadoop流中-用python编写Mapper和Reducer的地方-是否有助于使Mapper进程使用multiprocessing模块?还是调度程序阻止了Mapper脚本在计算节点上的多个线程上运行?

python-3.x hadoop-streaming
1个回答
0
投票

在经典的MapReduce中,没有什么可以阻止您在映射器或化简器中具有多个线程。 Hadoop流技术也是如此,每个映射器或化简器可以具有多个线程。如果您有大量的CPU工作并想加快速度,则可能会发生这种情况。

[如果您正在使用Python进行Hadoop流传输,则可以使用multiprocess模块来加快您的映射器过程。

请注意,根据Hadoop集群的配置方式(每个节点多少个映射器/还原器),您可以调整可使用的最大进程数。

© www.soinside.com 2019 - 2024. All rights reserved.