我想使用hadoop流方法在Google Cloud Dataproc中运行python map reduce作业。我的地图缩小python脚本,输入文件和作业结果输出位于Google云端存储中。
我试着运行这个命令
hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -file gs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py -mapper gs://bucket-name/intro_to_mapreduce/mapper_prod_cat.py -file gs://bucket-name/intro_to_mapreduce/reducer_prod_cat.py -reducer gs://bucket-name/intro_to_mapreduce/reducer_prod_cat.py -input gs://bucket-name/intro_to_mapreduce/purchases.txt -output gs://bucket-name/intro_to_mapreduce/output_prod_cat
但是我得到了这个错误输出:
文件:/home/ramaadhitia/gs:/bucket-name/intro_to_mapreduce/mapper_prod_cat.py不存在,或者不可读。
尝试-help获取更多信息流命令失败!
云连接器是否在hadoop流中不起作用?有没有其他方法来运行python map reduce job使用hadoop流与python脚本和位于谷歌云存储中的输入文件?
谢谢