Python - 如何通过命令行参数运行 Hadoop 流

问题描述 投票:0回答:1

我需要学校项目的帮助。

对于我所做的实验,我用 python(版本 3)编写了映射器和化简器脚本,并且能够毫无问题地运行 hadoop 流。然后我编辑了脚本来处理 2 个不同格式的文件,我的脚本决定如何使用我将传递到 mapper.py 脚本中的命令行参数来格式化映射器数据。

命令行看起来像这样

python mapper.py abcd defg 1

每次我将其传递到hadoop流中时,我都会不断收到“python文件不可读”的消息。我需要一些帮助!

python-3.x hadoop hadoop-streaming
1个回答
0
投票

将占位符替换为您的特定用例的实际值。以下是重要组件的细分:

path_to_streaming_jar:将其替换为 Hadoop 安装中 Hadoop Streaming JAR 文件的实际路径。 input_path:Hadoop 作业的 HDFS 输入目录或文件。 output_path:Hadoop 作业结果的 HDFS 输出目录。 mapper_script:映射器脚本或可执行文件的路径。 reducer_script:reducer 脚本或可执行文件的路径。 :特定应用程序所需的任何其他命令行参数,例如 -file、-cmdenv 或特定于脚本的自定义参数。 确保您的脚本在 Hadoop 集群的文件系统上可执行且可用,并且指定的输入目录中存在必要的输入数据。

当所有组件设置完毕后,就可以在终端上执行该命令了。这将使用提供的映射器和化简器脚本以及任何其他参数启动 Hadoop Streaming 作业。

如果您有具体的附加参数或更详细的用例,请提供更多信息以进一步帮助您。

© www.soinside.com 2019 - 2024. All rights reserved.