我正在处理大型文本文件。每个记录都是输入文本文件中的一行,我正在这些记录中搜索某些关键字。我想知道在使用hadoop mapreduce时,以下两种方法中的哪种更有效(时间复杂度):在Map器的Map函数中搜索关于减速机减速机功能的探讨请帮帮我!
tzxcd3kk1#
两者都应该很好,但是,根据您的输入,我将在map函数中尝试它,因为:只有找到关键字,数据才会被发送到组和reduce阶段。如果匹配关键字的数据较少,那么分组和约简的开销就会显著减少。
1条答案
按热度按时间tzxcd3kk1#
两者都应该很好,但是,根据您的输入,我将在map函数中尝试它,因为:
只有找到关键字,数据才会被发送到组和reduce阶段。如果匹配关键字的数据较少,那么分组和约简的开销就会显著减少。