通过 SSH 进行神经网络训练时出现“packet_write_wait:连接到 xxx.xx.x.xxx 端口 22:管道损坏”错误

问题描述 投票:0回答:1

我在尝试使用 PuTTY 或 Visual Studio Code 通过 SSH 在远程服务器上训练神经网络时遇到问题。运行我的 Python 脚本进行训练几分钟后,特别是在完成大约 1 个半周期后,就会出现问题。我收到以下错误:

packet_write_wait:连接到 xxx.xx.x.xxx 端口 22:管道损坏

我尝试了网上找到的几种解决方案,并对我的 SSH 配置进行了一些更改,但到目前为止,它们似乎都没有解决问题。以下是我尝试过的一些解决方案:

将以下行添加到我的 SSH 配置中(不是一次全部添加):

Host *
    IPQoS=throughput

Host *
    ServerAliveInterval 20
    TCPKeepAlive no

Host *
     ServerAliveInterval 60
     ServerAliveCountMax 10

但是,这些解决方案都没有被证明可以有效防止 SSH 连接过早终止。

是否有其他人遇到过类似的问题,或者对如何在不需要 sudo 权限的情况下解决此问题有任何见解?

谢谢!

python tensorflow ssh putty
1个回答
0
投票

假设训练是在 Linux 机器上完成的,一种可能的替代方法是在

screen
会话中运行代码(屏幕手册页)。即使您断开连接或注销计算机,您在内部运行的任何内容都将继续运行。

ssh you@remote
screen -S training # start a screen session called "training"
python main.py # start your training code

然后,您可以通过按 Ctrl A 再按 Ctrl D 分离屏幕会话,并自由注销远程。

要返回屏幕会话,请 ssh 到计算机并运行

screen -r training

© www.soinside.com 2019 - 2024. All rights reserved.