Yandex Dataproc 架构：“数据”节点的目的？

问题描述投票：0回答：1

我一直在使用 Google Dataproc 探索 Spark，其中标准架构包括主节点和工作节点。在 Google Dataproc 上，主节点通常包含 hdfs Namenode 和 yarn ResourceManager，工作节点包含 hdfs Datanode 和 yarn NodeManager。

但是，当我使用 Yandex Dataproc 设置集群时，建议的架构包括主节点、数据节点和执行节点。我很好奇这些“数据”节点的作用和优势。它们可能托管哪些组件？鉴于数据节点将消耗 CPU 和 RAM 资源，这种设计选择似乎可能会增加成本。不幸的是，我在Yandex文档中找不到详细的解释。

任何人都可以在 Yandex Dataproc 中阐明此架构背后的基本原理吗？

apache-spark

hadoop

yandex

1个回答

0
投票

它的架构与 GCP 完全相同。

主节点运行Namenode和/或ResourceManager，

数据节点运行字面上的 HDFS 数据节点。

https://cloud.yandex.com/en/docs/data-proc/concepts/

计算节点的相关成本最高，其次是主节点。存储数据块不需要很高的 cpu/men，网络吞吐量应该优先考虑。

Yandex Dataproc 架构：“数据”节点的目的？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1