具有无盘计算节点的hadoop(HDFS)

问题描述 投票:1回答:1

我有一个小型集群,其中一个节点具有RAID存储,还有几个功能强大的无盘计算节点,它们通过PXE引导。所有节点均通过InfiniBand(以及用于引导的1G以太网)连接。

我需要在此群集上部署Hadoop。

请提出最佳配置据我了解,默认配置意味着所有计算节点都具有自己的小型存储,但是在我的情况下(如果我拥有NFS共享)它将通过网络进行过多的复制。我找到了将Lustre与Hadoop结合使用的资源,但我不知道如何配置它]

hadoop share hdfs
1个回答
1
投票

您所描述的可能是可能的,但是-您正在尝试找到解决这些问题的方法,而不是使用Hadoop功能。

  1. 移动计算比移动数据便宜]-数据位置

    是Hadoop的基石之一,这就是集群中所有工作节点也是存储节点的原因。 Hadoop尝试在已处理块所在的节点上进行尽可能多的计算,以避免网络拥塞。

    https://developer.yahoo.com/hadoop/tutorial/module1.html

    然后,Hadoop框架使用来自分布式文件系统的知识,将这些过程安排在数据/记录位置附近。由于文件以块的形式分布在整个分布式文件系统中,因此在节点上运行的每个计算过程都将对数据的子集进行操作。根据节点在节点上的位置来选择要操作的数据:大多数数据直接从本地磁盘读取到CPU中,从而减轻了网络带宽的压力并防止了不必要的网络传输。这种将计算移至数据而不是将数据移至计算的策略,使Hadoop可以实现较高的数据局部性,从而提高性能。

  2. MapReduce往往会生成大量的临时文件,因此每个节点15 GB根本不足以存储。

© www.soinside.com 2019 - 2024. All rights reserved.