我们计划使用 EMR 集群来处理 80 GB 的 Parquet 数据。我们想要规划为此所需的总核心和任务节点。我发现了 AWS 的this 容量规划文档。
对于任务节点的容量规划,文档是这样假设的
假设您有 28 个进程,每个进程 20 GiB。
我的问题是这 28 个进程 20 GB 是什么?他们是执行者吗?