我在尝试使用 PuTTY 或 Visual Studio Code 通过 SSH 在远程服务器上训练神经网络时遇到问题。运行我的 Python 脚本进行训练几分钟后,特别是在完成大约 1 个半周期后,就会出现问题。我收到以下错误:
packet_write_wait:连接到 xxx.xx.x.xxx 端口 22:管道损坏
我尝试了网上找到的几种解决方案,并对我的 SSH 配置进行了一些更改,但到目前为止,它们似乎都没有解决问题。以下是我尝试过的一些解决方案:
将以下行添加到我的 SSH 配置中(不是一次全部添加):
Host * IPQoS=throughput Host * ServerAliveInterval 20 TCPKeepAlive no Host * ServerAliveInterval 60 ServerAliveCountMax 10
但是,这些解决方案都没有被证明可以有效防止 SSH 连接过早终止。
是否有其他人遇到过类似的问题,或者对如何在不需要 sudo 权限的情况下解决此问题有任何见解?
谢谢!
假设训练是在 Linux 机器上完成的,一种可能的替代方法是在
screen
会话中运行代码(屏幕手册页)。即使您断开连接或注销计算机,您在内部运行的任何内容都将继续运行。
ssh you@remote
screen -S training # start a screen session called "training"
python main.py # start your training code
然后,您可以通过按 Ctrl A 再按 Ctrl D 分离屏幕会话,并自由注销远程。
要返回屏幕会话,请 ssh 到计算机并运行
screen -r training
。