glue dpu与max concurrency之间的关系

问题描述 投票:1回答:1

我已经在Amazon EMR上工作了一年多,但最近我们已经转移到aws glue进行数据处理。

我很难理解我们在胶水工作中提供的no of dpusmax concurrency之间的关系。

例如,我用2 dpus创建了max concurrency as 2的工作。最重要的是,想象一下我有two threads立即启动此端点(作业)。

假设我正在对60GB file进行一些聚合。我找到了一些帖子,但他们并没有真正帮助,比如thisthis

我可以在aws胶水上完成这项工作多少次作业?

apache-spark concurrency amazon-sqs aws-glue
1个回答
1
投票

AWS提供了两个描述上述问题的关键文档:

https://docs.aws.amazon.com/glue/latest/dg/troubleshooting-service-limits.html

https://docs.aws.amazon.com/glue/latest/dg/add-job.html

基于这些文档,我们有以下参考我们主题的作业参数和服务限制:

服务器限制:

  • “每个帐户的并发作业数”
  • “每个作业的并发作业数”
  • “角色一次使用的最大DPU”

胶水作业参数:

  • “最大并发”
  • “每个作业运行的并发DPU”

规则是指一个胶水工作:

  • “最大并发数”*“每个作业运行的并发DPU”<=“一次角色使用的最大DPU”
  • “Max concurrency”<=“每个作业的并发作业数”
  • 胶水作业运行次数<=“最大并发次数”

如果同时运行多个粘合作业,则还必须满足以下规则:

  • 粘合作业运行次数*“每个作业运行的并发DPU”<=“一次角色使用的最大DPU”
  • 胶水作业运行次数<=“每个帐户的并发作业运行次数”

假设您使用默认服务限制,而不是同时运行其他作业:

每个作业的并发作业数:3

角色一次使用的最大DPU:100

这意味着您可以并行运行最多三个相同的胶水作业,这些任务总共不能超过100 DPU的限制。

例如:您可以运行3个粘贴作业实例,DPU = 30,最大并发数= 3,但是当您运行3个DPU = 50且最大并发数为3的粘合作业实例时,您将收到以下错误:

“超出了帐户的最大并发计算容量”

我希望它会有所帮助

© www.soinside.com 2019 - 2024. All rights reserved.