多个gz文件转到一个hadoop节点

8wtpewkr  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(169)

我有7个非常大的gz文件,每个都有10g字节的数据,还有100个小的bzip2文件,每个只有10m字节。我在hadoop集群中有10台机器,每台机器有8个核心。当我启动map reduce作业时,100个小bzip2文件将在1分钟内完成。7个大的gz文件需要很长时间。我的问题是:为什么7个gz文件只去一台机器,即使我有10台机器在那里,它导致一台机器工作非常努力,而其他9台机器几乎什么都不做。我对此很好奇,我试着设置mapred.tasktracker.map.tasks.maximum=1,这意味着只有一个任务会同时在一台机器上运行,但是设置了这个之后,我仍然在一台机器上运行了7个文件,即7个mappers(JVM)同时在一台机器上运行。
请帮我把7个Map器扇出到7台机器而不是一台机器,提前谢谢!

pengsaosao

pengsaosao1#

也许文件在一个不平衡的hdfs上,或者在一个fs的本地?也许您需要运行hdfs重新平衡来将文件分布在集群上。

相关问题