我正在使用 torchrun 来启动多节点训练:
torchrun --nnodes=2 --nproc-per-node=8 ... --logdir=/path
如何为每个进程请求具有特定文件格式(即 %rank.out 和 %rank.err)的单独 stdout 和 stderr?谢谢!
您可以通过添加
--redirect 3
来获取每个进程的 stderr 和 stdout 文件:
torchrun --nnodes=2 --nproc-per-node=8 ... --logdir=/path --redirect 3 myfile.py
正如
torchrun --help
所解释的,3
会重定向 stderr 和 stdout。然后,您可以使用 shell 脚本遍历 log dir 子目录并自定义命名格式。