我在Google Cloud Storage (GCS) bucket上有以下结构。
gs://my_bucket/py_scripts/
wrapper.py
mymodule.py
_init__.py
我正在运行 wrapper.py
通过Dataproc作为pyspark作业,它导入了 mymodule
使用 import mymodule
但作业却返回错误信息说 no module named mymodule
即使它们在同一个路径上。然而,这在Unix环境下却能正常工作。
请注意 _init__.py
是空的。还测试了 from mymodule import myfunc
但返回相同的错误。
你能提供你的pyspark作业提交命令吗?我怀疑你没有通过"-py-files "参数来提供其他 python 文件给作业。检查参考 https:/cloud.google.comsdkgcloudreferencedataprocjobssubmitpyspark。 . Dataproc 不会将同一 GS 桶中的文件作为作业的输入。