如何在GCP存储桶中存储spark-submit .py文件?

问题描述 投票:1回答:1

我正在尝试运行此文件.py文件。我已将dsgd_mf.py文件复制到GCP存储桶中。所需的输入数据文件也在我的桶中。如何激发提交并获得输出? (https://github.com/LiuShifeng/Matrix_Factor_Python/blob/master/dsgd_mf.py

我在GCP上运行Jupyter笔记本并安装了gcloud SDK。除了创建集群和运行Jupiter笔记本之外,我还没有改变任何其他内容。我看到了一些与.jar文件有关的选项,但我不知道并且有任何.jar文件要指定或链接。我很新,很快就会得到快速的帮助。请访问该链接以查看脚本文件。我需要帮助才能在Google云平台上运行此功能。

python apache-spark google-cloud-platform pyspark spark-submit
1个回答
1
投票

你在Dataproc上运行吗?如果是这样,您应该能够使用以下内容提交pyspark作业:

gcloud --project={YOUR_CLUSTERS_PROJECT} dataproc jobs submit pyspark \
{GCS_PATH_TO_JOB} \
--cluster {CLUSTER_NAME} \
-- {SPACE_DELIMITED_JOB_ARGUMENTS}

尽管如此,使用pyspark jupyter内核将阻止作业启动(即日志会说作业正在等待资源一遍又一遍)。

© www.soinside.com 2019 - 2024. All rights reserved.