HPC 中什么是暂存空间/文件系统

问题描述 投票:0回答:3

我正在研究 HPC 应用程序和并行文件系统。我遇到了术语暂存空间和暂存文件系统。

我无法想象这个暂存空间存在于哪里。是在计算节点上作为挂载的文件系统/scratch还是在主存储空间上。

它的内容是什么。

每个计算节点上的暂存空间是否独立,或者两个或多个节点可以共享一个暂存空间。

假设我有一个文件 123.txt,我想并行处理它。暂存空间将包含该文件的部分内容还是将复制整个文件。

我很困惑,谷歌上没有任何明确的描述。请大家指点一下。

非常感谢。

filesystems nfs hpc supercomputers lustre
3个回答
4
投票

这完全取决于集群的设置方式以及用户的需求。当您有权访问集群时,您还应该获得一些有关如何使用集群的信息,这应该可以回答您的大部分问题。

在我使用 NFS 的集群之一上,NFS 用于长期存储,并且一些 Lustre 空间可用于作业暂存空间。所有节点都可以看到 NFS 和 Lustre。每个节点上还有一些只有该节点才能看到的暂存空间。

如果您希望作业并行处理 123.txt,您可以将 123.txt 复制到共享暂存空间 (Lustre),也可以将其复制到作业文件中的每个节点暂存空间。

for i in `cat $PBS_NODEFILE | sort -u ` ; do scp 123.txt $i:/scratch ; done

一旦每个节点都有一个副本,您就可以运行您的作业。工作完成后,您需要将结果复制到持久存储,因为集群通常会运行脚本来清理暂存空间。


1
投票

有很多不同的方法来考虑或部署临时空间或临时文件系统。

假设您有一个Linux节点集群,并且这些节点都有硬盘。您可以想象每个节点都有一个本地的 /scratch 空间。由于操作系统映像相对较小,并且现在无法采购任何小于 TB 驱动器的设备,因此您最终会获得接近 1 TB 的存储空间供节点使用。

您会用这个节点本地存储做什么?哦,很多事情。可扩展的检查点重启。本地核心外操作。

当我第一次开始使用集群时,将所有这些未使用的空间组合到一个并行文件系统中似乎是个好主意。 PVFS 非常适合这个目的。

这让我可以继续访问所有节点都可用的 /scratch 并行文件系统。这有一个技术组件(站点将部署哪个并行文件系统?),但也有一个策略组件:该文件系统上的数据将保留多长时间?是否已备份? /scratch 通常意味着文件没有备份,实际上在一段时间不被访问(通常是两周)后被清除


0
投票

我们目前拥有运行 RHEL 8 和 Bright 计算管理集群软件的 20 个节点集群戴尔服务器,您能否提供有关如何创建 SCRATCH 驱动器的任何信息,以便我可以将其发送给管理集群的 IT 管理员,我不知道具有集群的 root 权限。我们如何着手创建 SCRATCH 驱动器,我参加 TAMU 或 PSC 大学的每次培训,他们总是向我们指出在处理模块时使用暂存驱动器。提前致谢,我还需要提供有关此过程的文档,因为他们将集群提升给了我作为校园里唯一的系统管理员。

© www.soinside.com 2019 - 2024. All rights reserved.