我通过putty登录ssh来运行hadoopmapreduce作业,这要求我在putty中输入主机名/ip地址、登录名和密码,以便获得ssh命令行窗口。进入ssh控制台窗口后,我将提供适当的mr命令,例如:
hadoop jar/usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.0.1.jar-file/nfs\u home/appers/user1/mapper.py-file/nfs\u home/appers/user1/reducer.py-mapper'/usr/lib/python\u 2.7.3/bin/python mapper.py'-reducer'/usr/lib/python\u 2.7.3/bin/python reducer.py'-input/ccexp/data/test\u xml/0901282-510179094535002-oozie-oozi-w/extractout//.xml-output/user/ccexptest/output/user1/mroutput
我想做的是使用python来改变这个笨拙的过程,这样我就可以从python脚本中启动mapreduce作业,避免通过putty登录ssh。
这可以做到吗?如果可以,有人能告诉我怎么做吗?
1条答案
按热度按时间4ktjp1zp1#
我用以下脚本解决了这个问题: