如何优化mapreduce作业

x4shl7ld  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(212)

所以我有一份Map计算的工作。由于每个任务大约需要0.08秒,一个360026行文件只需8小时即可完成。如果它是在一个节点上完成的。文件大小通常约为1-2块大小(通常为200 mb或更少)。
假设in代码已优化,是否仍有任何问题需要处理设置?例如,我应该使用较小的块大小吗?我目前正在使用aws emr,使用c4.large示例和yarn上的自动缩放,但是它只增加了4个额外的任务节点,因为负载不太高。即使Yarn内存不是太高,它仍然需要7个多小时才能完成(这是很长的路)。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题