在Google Cloud Dataproc环境中使用Hadoop流运行python map reduce job时出错

Question

我想使用hadoop流方法在Google Cloud Dataproc中运行python map reduce作业。我的地图缩小python脚本，输入文件和作业结果输出位于Google云端存储中。

我试着运行这个命令

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -file gs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py -mapper gs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py -file gs://bucket-name/intro_to_mapreduce/reducer_prod_cat.py -reducer gs://bucket-name/intro_to_mapreduce/reducer_prod_cat.py -input gs://bucket-name/intro_to_mapreduce/purchases.txt -output gs://bucket-name/intro_to_mapreduce/output_prod_cat

但是我得到了这个错误输出：

文件：/home/ramaadhitia/gs:/bucket-name/intro_to_mapreduce/mapper_prod_cat.py不存在，或者不可读。

尝试-help获取更多信息流命令失败！

云连接器是否在hadoop流中不起作用？有没有其他方法来运行python map reduce job使用hadoop流与python脚本和位于谷歌云存储中的输入文件？

谢谢

在Google Cloud Dataproc环境中使用Hadoop流运行python map reduce job时出错

问题描述投票：1回答：1

1个回答

最新问题

在Google Cloud Dataproc环境中使用Hadoop流运行python map reduce job时出错

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1