我已经在Amazon EMR上工作了一年多,但最近我们已经转移到aws glue
进行数据处理。
我很难理解我们在胶水工作中提供的no of dpus
和max concurrency
之间的关系。
例如,我用2 dpus
创建了max concurrency as 2
的工作。最重要的是,想象一下我有two threads
立即启动此端点(作业)。
假设我正在对60GB file
进行一些聚合。我找到了一些帖子,但他们并没有真正帮助,比如this和this
我可以在aws胶水上完成这项工作多少次作业?
AWS提供了两个描述上述问题的关键文档:
https://docs.aws.amazon.com/glue/latest/dg/troubleshooting-service-limits.html
https://docs.aws.amazon.com/glue/latest/dg/add-job.html
基于这些文档,我们有以下参考我们主题的作业参数和服务限制:
服务器限制:
胶水作业参数:
规则是指一个胶水工作:
如果同时运行多个粘合作业,则还必须满足以下规则:
假设您使用默认服务限制,而不是同时运行其他作业:
每个作业的并发作业数:3
角色一次使用的最大DPU:100
这意味着您可以并行运行最多三个相同的胶水作业,这些任务总共不能超过100 DPU的限制。
例如:您可以运行3个粘贴作业实例,DPU = 30,最大并发数= 3,但是当您运行3个DPU = 50且最大并发数为3的粘合作业实例时,您将收到以下错误:
“超出了帐户的最大并发计算容量”
我希望它会有所帮助