如何从Map器登录(hadoop和commoncrawl)

hujrc8aj 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(271)

我使用的是他们“mapreduce for the mass”教程中的commoncrawl示例代码。我正在尝试对Map器进行修改，并希望能够将字符串记录到某些输出中。我正在考虑设置一些nosqldb并将我的输出推到它上面，但这并不是一个好的解决方案。从java执行这种日志记录的标准方法是什么？

Java hadoop mapreduce nosql common-crawl

来源：https://stackoverflow.com/questions/14086631/how-do-i-log-from-a-mapper-hadoop-with-commoncrawl

1条答案

按热度按时间

1l5u6lss1#

虽然除了常见的日志记录器（至少我知道一个）之外，没有针对日志的特殊解决方案，但我可以看到一些解决方案。
a）如果日志是用于调试的-确实要编写常用的调试日志。在任务失败的情况下，您可以通过ui找到它们并进行分析。
b）如果这些日志是某种输出，您希望与作业中的其他输出一起获得，请为它们分配一些特定的键并写入上下文。然后在减速机中，您将需要一些特殊的逻辑来将它们放到输出中。
c）您可以在hdfs上创建目录，并使mapper写入其中。对于mr来说，这并不是经典的方法，因为这是副作用——在某些情况下，这是可以接受的。特别是考虑到在每个Map程序创建自己的文件之后-可以使用命令hadoop fs-getmerge。。。将所有日志作为一个文件获取。
c）如果你想能够监测你的工作进度，错误数等-你可以使用计数器。

赞(0）回复(0）举报 2021-06-04

我来回答

如何从Map器登录(hadoop和commoncrawl)

1条答案

相关问题

热门标签

最新问答