我有一个关于hadoop文件分割和多Map器的一般性问题。我是hadoop的新手,正在尝试掌握如何设置以获得最佳性能。我的项目目前正在处理gziped的warc文件。
使用当前的inputfileformat,文件将被发送到一个Map器,并且不会被拆分。我知道这是加密文件的正确行为。在运行作业之前,将文件解密作为一个中间步骤,以允许拆分作业,从而使用更多Map程序,这对性能有好处吗?有可能吗?拥有更多的Map器会产生更多的延迟开销吗?还是拥有一个Map器更好?谢谢你的帮助。
我有一个关于hadoop文件分割和多Map器的一般性问题。我是hadoop的新手,正在尝试掌握如何设置以获得最佳性能。我的项目目前正在处理gziped的warc文件。
使用当前的inputfileformat,文件将被发送到一个Map器,并且不会被拆分。我知道这是加密文件的正确行为。在运行作业之前,将文件解密作为一个中间步骤,以允许拆分作业,从而使用更多Map程序,这对性能有好处吗?有可能吗?拥有更多的Map器会产生更多的延迟开销吗?还是拥有一个Map器更好?谢谢你的帮助。
1条答案
按热度按时间irtuqstp1#
尽管warc文件是gzip文件,但它们是可拆分的(参见best splittable compression for hadoop input=bz2?),因为每个记录都有自己的deflate块。但记录偏移量必须事先知道。
但这真的有必要吗?常见的爬网warc文件的大小都在1gb左右,应该在最长15分钟内正常处理。考虑到启动Map任务的开销,Map程序运行的时间是合理的。例如,Map程序也可以处理一些warc文件,但重要的是,您必须对输入warc文件列表进行足够的拆分,以便所有节点都在运行任务。在hadoop上处理单个warc文件将意味着大量不必要的开销。