Python -如何运行Hadoop流传递命令行参数

ktca8awb  于 12个月前  发布在  Hadoop
关注(0)|答案(1)|浏览(223)

我需要帮助完成一个学校的项目。
对于我所做的实验,我用python(版本3)编写了mapper和reducer脚本,我能够在那里运行hadoop流没有问题。然后我编辑脚本以处理两个不同格式的文件,我的脚本决定如何使用我传递到mapper.py脚本中的命令行参数格式化mapper数据。
命令行如下所示

python mapper.py abcd defg 1

字符串
每次我把它传递到hadoop流中,我总是得到“python文件不可读”。我想在这方面得到一些帮助!

sczxawaw

sczxawaw1#

将占位符替换为特定用例的实际值。以下是重要组件的细分:
path_to_streaming_jar:将其替换为Hadoop安装中的Hadoop Streaming SDK文件的实际路径。input_path:Hadoop作业的HDFS输入目录或文件。output_path:Hadoop作业结果的HDFS输出目录。mapper_script:mapper脚本或可执行文件的路径。reducer_script:reducer脚本或可执行文件的路径。:特定应用程序所需的任何其他命令行参数,例如-file、-cmdenv或特定于脚本的自定义参数。确保脚本可执行,并且在Hadoop集群的文件系统上可用,并且所需的输入数据存在于指定的输入目录中。
设置好所有组件后,您可以在终端上执行此命令。这将使用提供的Map器和reducer脚本以及任何其他参数沿着启动Hadoop Streaming作业。
如果您有特定的其他参数或更详细的用例,请提供更多信息以进一步帮助您。

相关问题