我正在java中的hadoop上实现一个mapreduce作业,性能非常重要。我的Map程序得到一些文本作为输入,并且应该为输入中每一个单词的不同出现发出一个(键,值)元组,除了在文件中定义的一些预定义的停止词,这些词在编译时可用并且不会更改。
我想用两个 Set
s和呼叫 wordSet.removeAll(stopWordSet)
是在运行时执行his的最佳方式,但我也希望避免每次初始化Map程序时都加载word文件。
有没有办法在编译时静态地填充这个集合?我正在考虑将文件解析为一个字符串,并使其成为最终的,但之后我必须调用 .split()
在运行时。
实现这样的目标最有效的方法是什么?
暂无答案!
目前还没有任何答案,快来回答吧!