如何在GCP存储桶中存储spark-submit .py文件？

Question

我正在尝试运行此文件.py文件。我已将dsgd_mf.py文件复制到GCP存储桶中。所需的输入数据文件也在我的桶中。如何激发提交并获得输出？（https://github.com/LiuShifeng/Matrix_Factor_Python/blob/master/dsgd_mf.py）

我在GCP上运行Jupyter笔记本并安装了gcloud SDK。除了创建集群和运行Jupiter笔记本之外，我还没有改变任何其他内容。我看到了一些与.jar文件有关的选项，但我不知道并且有任何.jar文件要指定或链接。我很新，很快就会得到快速的帮助。请访问该链接以查看脚本文件。我需要帮助才能在Google云平台上运行此功能。

Answer 1

你在Dataproc上运行吗？如果是这样，您应该能够使用以下内容提交pyspark作业：

gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
{GCS_PATH_TO_JOB} \
--cluster {CLUSTER_NAME} \
-- {SPACE_DELIMITED_JOB_ARGUMENTS}

尽管如此，使用pyspark jupyter内核将阻止作业启动（即日志会说作业正在等待资源一遍又一遍）。

如何在GCP存储桶中存储spark-submit .py文件？

问题描述投票：1回答：1

1个回答

最新问题

如何在GCP存储桶中存储spark-submit .py文件？

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1