我正在用hadoop编写一个mapreduce作业,其中性能非常重要,我必须决定如何在我的mapper和reducer之间传输多个值(可能还要将它们写入磁盘以进行进一步的作业链接)
就我而言,我有一个 Text
,然后是两个 IntWritable
在每一个值中。我的问题是,我应该把值作为串联字符串输出吗 Word:Number:Number
,或者我应该实现一个自定义 Writable
它有3个字段来获得最佳性能?
我对序列化和casting/string拆分之间的折衷很感兴趣(即使使用像guava splitter这样性能更高的库)
暂无答案!
目前还没有任何答案,快来回答吧!