提交ml-engine培训作业时云存储上载失败

问题描述 投票:0回答:1

我按照这里的说明:https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/running_on_cloud.md

我为我的项目创建了一个存储桶,并将以下文件上传到gs://<BUCKET>/data

  • faster_rcnn_resnet101_pets.config
  • model.ckpt.data 00000-的-00001
  • model.ckpt.index
  • 之后的汽车旅馆
  • pet_faces_train.record- *
  • pet_faces_val.record- *
  • pet_label_map.pbtxt

跑步时

gcloud ml-engine jobs submit training `whoami`_object_detection_pets_`date +%m_%d_%Y_%H_%M_%S` \
    --runtime-version 1.9 \
    --job-dir=gs://<BUCKET>/model_dir \
    --packages dist/object_detection-0.1.tar.gz,slim/dist/slim-0.1.tar.gz,/tmp/pycocotools/pycocotools-2.0.tar.gz \
    --module-name object_detection.model_main \
    --region us-central1 \
    --config object_detection/samples/cloud/cloud.yml \
    -- \
    --model_dir=gs://<BUCKET>/model_dir \
    --pipeline_config_path=gs://<BUCKET>/data/faster_rcnn_resnet101_pets.config

我收到了这个错误:

ERROR: (gcloud.ml-engine.jobs.submit.training) Cloud storage upload failure. Uploaded file does not match local file: dist/object_detection-0.1.tar.gz. Please retry.

我重新运行gcloud auth登录,实际上确实看到object_detection-0.1.tar.gz中有一个gs://<BUCKET>/model_dir/packages/7a24fbdd5ab652ab5a0737xxxxxx/文件

我被困在这里,非常感谢你的帮助。

提前致谢!

tensorflow machine-learning gcloud google-cloud-ml
1个回答
0
投票

我分担了你的痛苦:)

我所做的是在我的存储桶中创建一个名为dist的文件夹,然后将所有tar.gz文件上传到那里,并从存储桶而不是本地驱动器中使用它们。

我的桶叫做:tensorflow-oxford-pets。 gs:// tensorflow-oxford-pets / dist的内容现在是:

  • object_detection-0.1.tar.gz
  • 超薄0.1.tar.gz
  • Pyakakatulasa-20taragaja

而不是本地路径。

  • --packages dist / object_detection-0.1.tar.gz,slim / dist / slim-0.1.tar.gz,/ tmp / pycocotools / pycocotools-2.0.tar.gz \

我使用了一个桶路径:

  • --packages gs://tensorflow-oxford-pets/dist/object_detection-0.1.tar.gz,gs://tensorflow-oxford-pets/dist/slim-0.1.tar.gz,gs:// tensorflow-oxford -pets / dist / pycocotools-2.0.tar.gz \
© www.soinside.com 2019 - 2024. All rights reserved.