mapreduce：如何在没有换行的情况下输出键/值对？

kdfy810k 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(427)

我正在使用0减少方法来解决我的问题。我希望对一个文件中的数据进行预处理，然后将其作为另一个文件写入，但没有新行和制表符？我怎样才能输出我的Map作业，它已经处理了我的数据，它以相同的文件格式来减去预处理。也就是说，我有这样的东西：
预处理：

<TITLE> Herp derp </Title> I am a major general

后处理：

Herp 
Derp 
I 
am 
a
major
general

我要它做的是：

Herp Derp I am a major general

我认为问题在于这一行代码：

job.setOutputFormatClass(TextOutputFormat.class);

然而，当我尝试时，很天真地做了这样的事情：

job.setOutputFormatClass(null);

这显然行不通。是否提供了一个格式类，我可以使用它来执行此操作？如果没有，我怎么能编写自己的类来输出我想要的一切呢？我是hadoop和map reduce的新手。
我已经包括我的Map功能如下。我不想使用reduce，因为它会在map和reducer之间排序。

public void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {

            String line = value.toString();
            StringTokenizer tokenizer = new StringTokenizer(line);

            while (tokenizer.hasMoreTokens()) {

                word.set(tokenizer.nextToken());

                //Did preprocessing here, irrelevant to my problem

                context.write(word, null);
            }
        }

另外，我也在google上搜索了这个，并阅读了apachehadoopapi，看看是否能找到答案。

Java hadoop mapreduce reduce Map

来源：https://stackoverflow.com/questions/19070640/mapreduce-how-can-i-output-key-value-pair-without-newlines