我是db人,所以java对我来说是新事物。寻找脚本语言与hdfs的工作,可能是python我正在寻找。但我在前面的一个问题中看到,您提到,如果使用脚本语言,名称和数据节点之间不会发生“心跳”。为什么,我不明白?当我们编写应用程序逻辑来处理脚本或java代码中的数据时,它对“心跳”有何影响?有什么想法吗?
kpbpu0081#
如果您已经知道如何使用python编写代码,那么python是hadoop的好选择。我成功地使用了php和perl。hadoop框架的这一部分称为流。对于“心跳”,我相信你在想计数器。它们是用户定义的“变量”,只能递增。如果10分钟内没有计数器递增,hadoop将终止任务尝试。不过,您不必担心这一点,因为系统计数器会自动递增。如果您确实有一个需要很长时间的作业,您仍然可以通过向标准错误输出发送这样的内容来使用python(hadoop流)计数器:
reporter:counter:MyGroup,MyCounter,1
有关hadoop流式处理计数器的更多信息,请参见
1条答案
按热度按时间kpbpu0081#
如果您已经知道如何使用python编写代码,那么python是hadoop的好选择。我成功地使用了php和perl。hadoop框架的这一部分称为流。
对于“心跳”,我相信你在想计数器。它们是用户定义的“变量”,只能递增。如果10分钟内没有计数器递增,hadoop将终止任务尝试。不过,您不必担心这一点,因为系统计数器会自动递增。如果您确实有一个需要很长时间的作业,您仍然可以通过向标准错误输出发送这样的内容来使用python(hadoop流)计数器:
有关hadoop流式处理计数器的更多信息,请参见