我正在尝试使用 ray up 启动单节点 ray 集群。
我有两个节点。一个是我运行ray up的节点,另一个是作为ray cluster的头节点。我已经确认第一个节点可以通过 SSH 连接到第二个节点。
我使用的 config.yaml 与此处找到的完全相同 - https://github.com/ray-project/ray/blob/master/python/ray/autoscaler/local/example-full.yaml .当我运行
ray up config.yaml
时,出现以下错误:
FileNotFoundError: [Errno 2] No such file or directory: 'rsync'
我真的不需要 rsync 的东西,因为我正在工作的所有节点都安装了一个共享的 NAS。所以,我注释掉了以下字段:
file_mounts
file_mounts_sync_continuously
rsync_filter
cluster_synced_files
再次运行
ray up config.yaml
,但得到同样的错误。
所以,这是我的问题 - 如何在运行 Cluster Launcher 时关闭文件同步?还是有一种简单的方法可以消除我的错误?
我正在使用 Ray 2.3.1 和 Python 3.8.9
这是我使用的 Ray Cluster Launch 配置(删除了所有文件同步内容):
cluster_name: default
provider:
type: local
head_ip: YOUR_HEAD_NODE_HOSTNAME
worker_ips: []
auth:
ssh_user: root
min_workers: 0
max_workers: 0
upscaling_speed: 1.0
idle_timeout_minutes: 5
initialization_commands: []
setup_commands: []
head_setup_commands: []
worker_setup_commands: []
head_start_ray_commands:
- ray stop
- ulimit -c unlimited && ray start --head --port=6379
worker_start_ray_commands:
- ray stop
- ray start --address=$RAY_HEAD_IP:6379
在集群设置期间关闭 rsync 命令似乎是不可能的,因为它在脚本中的某处进行了硬编码。
我遇到了类似的错误,在两个节点上安装 rsync 解决了这个问题。