Ray Cluster Launch - 无法在集群启动期间使用 ray up 关闭 rsync

问题描述 投票:0回答:1

发生了什么事

我正在尝试使用 ray up 启动单节点 ray 集群。

我有两个节点。一个是我运行ray up的节点,另一个是作为ray cluster的头节点。我已经确认第一个节点可以通过 SSH 连接到第二个节点。

我使用的 config.yaml 与此处找到的完全相同 - https://github.com/ray-project/ray/blob/master/python/ray/autoscaler/local/example-full.yaml .当我运行

ray up config.yaml
时,出现以下错误:

FileNotFoundError: [Errno 2] No such file or directory: 'rsync'

我真的不需要 rsync 的东西,因为我正在工作的所有节点都安装了一个共享的 NAS。所以,我注释掉了以下字段:

  1. file_mounts
  2. file_mounts_sync_continuously
  3. rsync_filter
  4. cluster_synced_files

再次运行

ray up config.yaml
,但得到同样的错误。

所以,这是我的问题 - 如何在运行 Cluster Launcher 时关闭文件同步?还是有一种简单的方法可以消除我的错误?

版本/依赖项

我正在使用 Ray 2.3.1 和 Python 3.8.9

复制脚本

这是我使用的 Ray Cluster Launch 配置(删除了所有文件同步内容):

cluster_name: default

provider:
    type: local
    head_ip: YOUR_HEAD_NODE_HOSTNAME
    worker_ips: []

auth:
    ssh_user: root

min_workers: 0

max_workers: 0

upscaling_speed: 1.0

idle_timeout_minutes: 5

initialization_commands: []

setup_commands: []

head_setup_commands: []

worker_setup_commands: []

head_start_ray_commands:
    - ray stop
    - ulimit -c unlimited && ray start --head --port=6379

worker_start_ray_commands:
    - ray stop
    - ray start --address=$RAY_HEAD_IP:6379
python cluster-computing ray
1个回答
0
投票

在集群设置期间关闭 rsync 命令似乎是不可能的,因为它在脚本中的某处进行了硬编码。

我遇到了类似的错误,在两个节点上安装 rsync 解决了这个问题。

© www.soinside.com 2019 - 2024. All rights reserved.