Dataproc 无法导入存储在 Google 云存储桶中的 Python 模块。

问题描述 投票:1回答:1

我在Google Cloud Storage (GCS) bucket上有以下结构。

gs://my_bucket/py_scripts/
    wrapper.py
    mymodule.py
    _init__.py

我正在运行 wrapper.py 通过Dataproc作为pyspark作业,它导入了 mymodule 使用 import mymodule 但作业却返回错误信息说 no module named mymodule 即使它们在同一个路径上。然而,这在Unix环境下却能正常工作。

请注意 _init__.py 是空的。还测试了 from mymodule import myfunc 但返回相同的错误。

python apache-spark pyspark python-import google-cloud-dataproc
1个回答
0
投票

你能提供你的pyspark作业提交命令吗?我怀疑你没有通过"-py-files "参数来提供其他 python 文件给作业。检查参考 https:/cloud.google.comsdkgcloudreferencedataprocjobssubmitpyspark。 . Dataproc 不会将同一 GS 桶中的文件作为作业的输入。

© www.soinside.com 2019 - 2024. All rights reserved.