为什么我们不能在hadoop中计算作业执行时间?

nkkqxpd9  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(423)

我的问题和掉队者问题有关。在sort中,它是一种算法,我们可以知道它的复杂性,并计算在一组恒定数据上执行时的运行时间。
为什么我们不能在hadoop中获得作业执行时间?
如果能够获得作业执行时间或任务执行时间,就可以快速地知道散乱任务,而不需要算法来知道哪个任务是散乱任务。

uhry853o

uhry853o1#

作业执行时间或任务执行时间将在作业跟踪器web ui中可用。希望这是您正在寻找的。web ui将在作业跟踪器的50030端口中可用。如果是基于Yarn的设置,则url将为http://:8088

fslejnso

fslejnso2#

在运行作业之前,不应估计作业将花费多少时间。运行mapreduce作业后,可以估计所用的时间。mapreduce始终取决于您的集群容量—ram大小、cpu内核和网络带宽—以及您为任务设置的缩减器数量。
您只能根据ram大小除以输入分割来进行假设。

相关问题