java中从静态文件填充集合的最佳性能方法

mmvthczy  于 2021-05-31  发布在  Hadoop
关注(0)|答案(0)|浏览(269)

我正在java中的hadoop上实现一个mapreduce作业,性能非常重要。我的Map程序得到一些文本作为输入,并且应该为输入中每一个单词的不同出现发出一个(键,值)元组,除了在文件中定义的一些预定义的停止词,这些词在编译时可用并且不会更改。
我想用两个 Set s和呼叫 wordSet.removeAll(stopWordSet) 是在运行时执行his的最佳方式,但我也希望避免每次初始化Map程序时都加载word文件。
有没有办法在编译时静态地填充这个集合?我正在考虑将文件解析为一个字符串,并使其成为最终的,但之后我必须调用 .split() 在运行时。
实现这样的目标最有效的方法是什么?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题