hadoop，python，subprocess失败，代码127

mzsu5hc0 于 2021-05-29 发布在 Hadoop

关注(0)|答案(5)|浏览(781)

我正在尝试用mapreduce运行非常简单的任务。
Map器.py:


# !/usr/bin/env python

import sys
for line in sys.stdin:
    print line

我的txt文件：

qwerty
asdfgh
zxc

运行作业的命令行：

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
-input /user/cloudera/In/test.txt \
-output /user/cloudera/test \
-mapper /home/cloudera/Documents/map.py \
-file /home/cloudera/Documents/map.py

错误：

INFO mapreduce.Job: Task Id : attempt_1490617885665_0008_m_000001_0, Status : FAILED
Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 127
    at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:325)
    at org.apache.hadoop.streaming.PipeMapRed.mapRedFinished(PipeMapRed.java:538)
    at org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:130)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:61)
    at org.apache.hadoop.streaming.PipeMapRunner.run(PipeMapRunner.java:34)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

如何修复此问题并运行代码？当我使用 cat /home/cloudera/Documents/test.txt | python /home/cloudera/Documents/map.py 很好用
!!!!!更新
我的*.py文件有问题。我已经复制了github的“tom-white-hadoop书”文件，一切正常。
但我不明白原因是什么。它不是权限和字符集（如果我没有错的话）。还能是什么？

hadoop mapreduce python cloudera hadoop-streaming

来源：https://stackoverflow.com/questions/43048654/hadoop-python-subprocess-failed-with-code-127

5条答案

按热度按时间

fhity93d1#

第一次检查 python --version . 中频输出 python --version 是

Command 'python' not found, but can be installed with:

sudo apt install python3       
sudo apt install python        
sudo apt install python-minimal

You also have python3 installed, you can run 'python3' instead.

使用安装python sudo apt install python 运行hadoop作业
在我的电脑上，它工作了，终于工作了

赞(0）回复(0）举报 2021-05-30

b4wnujal2#

在macos上的本地hadoop3.2.1上，我已经解决了我的问题 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 127 在这里：https://stackoverflow.com/a/61624913/4201275

赞(0）回复(0）举报 2021-05-29

kiayqfof3#

在 -mapper 参数您应该设置命令，以便在群集节点上运行。所以那里没有/home/cloudera/documents/map.py文件。传递的文件 -files 选项放置在工作目录中，因此您可以这样简单地使用它： ./map.py 我不记得对这个文件设置了什么权限，所以如果没有执行权限，就将其用作 python map.py 所以全部命令是

hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.6.0-mr1-cdh5.8.0.jar \
-input /user/cloudera/In/test.txt \
-output /user/cloudera/test \
-mapper "python map.py" \
-file /home/cloudera/Documents/map.py

赞(0）回复(0）举报 2021-05-29

62o28rlo4#

mapper.py或reducer.py中有错误。例如：
不使用 #!/usr/bin/env python 在文件上面。
python代码中的语法或逻辑错误(例如，print在python2和python3中有不同的语法。）

赞(0）回复(0）举报 2021-05-29

tkclm6bt5#

我也面临同样的问题。
问题：在windows环境中创建python文件时，新行字符是crlf。我的hadoop运行在linux上，它将换行符理解为lf

解决方案：将crlf更改为lf后，步骤成功运行。