为什么我要使用hadoop在多个大文件中搜索字符串,而不是使用现成的unix工具,如split、grep和cat?谢谢阿什
hgncfbus1#
hadoop设计用于搜索多个文件并合并结果。上面提到的其他工具不能做到这一点(如果没有大量的工作)。特别是,由于hadoop是并行的(跨多个服务器),这意味着“大量工作”必须用支持并行的语言来完成。python可以用于特定的原型,但很可能无法与split、grep和cat(如bash)相比(除非您大幅降低需求)。
1条答案
按热度按时间hgncfbus1#
hadoop设计用于搜索多个文件并合并结果。上面提到的其他工具不能做到这一点(如果没有大量的工作)。特别是,由于hadoop是并行的(跨多个服务器),这意味着“大量工作”必须用支持并行的语言来完成。python可以用于特定的原型,但很可能无法与split、grep和cat(如bash)相比(除非您大幅降低需求)。