我一直在使用 Google Dataproc 探索 Spark,其中标准架构包括主节点和工作节点。在 Google Dataproc 上,主节点通常包含 hdfs Namenode 和 yarn ResourceManager,工作节点包含 hdfs Datanode 和 yarn NodeManager。
但是,当我使用 Yandex Dataproc 设置集群时,建议的架构包括主节点、数据节点和执行节点。我很好奇这些“数据”节点的作用和优势。它们可能托管哪些组件?鉴于数据节点将消耗 CPU 和 RAM 资源,这种设计选择似乎可能会增加成本。不幸的是,我在Yandex文档中找不到详细的解释。
任何人都可以在 Yandex Dataproc 中阐明此架构背后的基本原理吗?
它的架构与 GCP 完全相同。
主节点运行Namenode和/或ResourceManager,
数据节点运行字面上的 HDFS 数据节点。
https://cloud.yandex.com/en/docs/data-proc/concepts/
计算节点的相关成本最高,其次是主节点。存储数据块不需要很高的 cpu/men,网络吞吐量应该优先考虑。