在Google Cloud Dataproc环境中使用Hadoop流运行python map reduce job时出错

问题描述 投票:1回答:1

我想使用hadoop流方法在Google Cloud Dataproc中运行python map reduce作业。我的地图缩小python脚本,输入文件和作业结果输出位于Google云端存储中。

我试着运行这个命令

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -file gs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py -mapper gs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py -file gs://bucket-name/intro_to_mapreduce/reducer_prod_cat.py -reducer gs://bucket-name/intro_to_mapreduce/reducer_prod_cat.py -input gs://bucket-name/intro_to_mapreduce/purchases.txt -output gs://bucket-name/intro_to_mapreduce/output_prod_cat

但是我得到了这个错误输出:

文件:/home/ramaadhitia/gs:/bucket-name/intro_to_mapreduce/mapper_prod_cat.py不存在,或者不可读。

尝试-help获取更多信息流命令失败!

云连接器是否在hadoop流中不起作用?有没有其他方法来运行python map reduce job使用hadoop流与python脚本和位于谷歌云存储中的输入文件?

谢谢

hadoop google-cloud-platform hadoop-streaming google-cloud-dataproc
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.