具有无盘计算节点的hadoop（HDFS）

问题描述投票：1回答：1

我有一个小型集群，其中一个节点具有RAID存储，还有几个功能强大的无盘计算节点，它们通过PXE引导。所有节点均通过InfiniBand（以及用于引导的1G以太网）连接。

我需要在此群集上部署Hadoop。

请提出最佳配置据我了解，默认配置意味着所有计算节点都具有自己的小型存储，但是在我的情况下（如果我拥有NFS共享）它将通过网络进行过多的复制。我找到了将Lustre与Hadoop结合使用的资源，但我不知道如何配置它]

hadoop share hdfs

1个回答

1
投票

您所描述的可能是可能的，但是-您正在尝试找到解决这些问题的方法，而不是使用Hadoop功能。

移动计算比移动数据便宜]-数据位置
是Hadoop的基石之一，这就是集群中所有工作节点也是存储节点的原因。 Hadoop尝试在已处理块所在的节点上进行尽可能多的计算，以避免网络拥塞。
https://developer.yahoo.com/hadoop/tutorial/module1.html

然后，Hadoop框架使用来自分布式文件系统的知识，将这些过程安排在数据/记录位置附近。由于文件以块的形式分布在整个分布式文件系统中，因此在节点上运行的每个计算过程都将对数据的子集进行操作。根据节点在节点上的位置来选择要操作的数据：大多数数据直接从本地磁盘读取到CPU中，从而减轻了网络带宽的压力并防止了不必要的网络传输。这种将计算移至数据而不是将数据移至计算的策略，使Hadoop可以实现较高的数据局部性，从而提高性能。
MapReduce往往会生成大量的临时文件，因此每个节点15 GB根本不足以存储。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.