为 torchrun 指定每个进程重定向

问题描述 投票:0回答:1

我正在使用 torchrun 来启动多节点训练:

torchrun --nnodes=2 --nproc-per-node=8 ... --logdir=/path

如何为每个进程请求具有特定文件格式(即 %rank.out 和 %rank.err)的单独 stdout 和 stderr?谢谢!

pytorch
1个回答
0
投票

您可以通过添加

--redirect 3
来获取每个进程的 stderr 和 stdout 文件:

torchrun --nnodes=2 --nproc-per-node=8 ... --logdir=/path --redirect 3 myfile.py

正如

torchrun --help
所解释的,
3
会重定向 stderr 和 stdout。然后,您可以使用 shell 脚本遍历 log dir 子目录并自定义命名格式。

© www.soinside.com 2019 - 2024. All rights reserved.