如何在EMR集群中运行两个火花作业?

问题描述 投票:0回答:1

我有一个在EMR群集中运行的实时Spark作业,还有另一个在另一个EMR群集中运行的批处理作业,并且该作业在特定时间触发。如何在一个EMR群集中运行这两个作业?

任何建议。

pyspark amazon-emr
1个回答
1
投票

如果两个EMR中的步骤都不相互依赖,则可以使用EMR中称为Concurrency的功能来解决用例。此功能仅意味着您一次可以并行运行多个步骤。

此功能是EMR版本[[5.28.0中的功能。如果使用的版本比此版本旧,则无法使用此功能。

从AWS控制台启动EMR时,此功能在UI中称为

'Concurrency'

。您可以选择1到256之间的任何数字。如果从AWS CLI启动EMR,则此功能称为

'StepConcurrencyLevel'

您可以在multiple steps now in EMR AWS CLI details上了解更多相关信息>
© www.soinside.com 2019 - 2024. All rights reserved.