Yandex Dataproc 架构:“数据”节点的目的?

问题描述 投票:0回答:1

我一直在使用 Google Dataproc 探索 Spark,其中标准架构包括主节点和工作节点。在 Google Dataproc 上,主节点通常包含 hdfs Namenodeyarn ResourceManager,工作节点包含 hdfs Datanodeyarn NodeManager

但是,当我使用 Yandex Dataproc 设置集群时,建议的架构包括主节点、数据节点和执行节点。我很好奇这些“数据”节点的作用和优势。它们可能托管哪些组件?鉴于数据节点将消耗 CPU 和 RAM 资源,这种设计选择似乎可能会增加成本。不幸的是,我在Yandex文档中找不到详细的解释。

任何人都可以在 Yandex Dataproc 中阐明此架构背后的基本原理吗?

apache-spark hadoop yandex
1个回答
0
投票

它的架构与 GCP 完全相同。

主节点运行Namenode和/或ResourceManager,

数据节点运行字面上的 HDFS 数据节点。

https://cloud.yandex.com/en/docs/data-proc/concepts/

计算节点的相关成本最高,其次是主节点。存储数据块不需要很高的 cpu/men,网络吞吐量应该优先考虑。

© www.soinside.com 2019 - 2024. All rights reserved.