我的问题和掉队者问题有关。在sort中,它是一种算法,我们可以知道它的复杂性,并计算在一组恒定数据上执行时的运行时间。为什么我们不能在hadoop中获得作业执行时间?如果能够获得作业执行时间或任务执行时间,就可以快速地知道散乱任务,而不需要算法来知道哪个任务是散乱任务。
uhry853o1#
作业执行时间或任务执行时间将在作业跟踪器web ui中可用。希望这是您正在寻找的。web ui将在作业跟踪器的50030端口中可用。如果是基于Yarn的设置,则url将为http://:8088
fslejnso2#
在运行作业之前,不应估计作业将花费多少时间。运行mapreduce作业后,可以估计所用的时间。mapreduce始终取决于您的集群容量—ram大小、cpu内核和网络带宽—以及您为任务设置的缩减器数量。您只能根据ram大小除以输入分割来进行假设。
2条答案
按热度按时间uhry853o1#
作业执行时间或任务执行时间将在作业跟踪器web ui中可用。希望这是您正在寻找的。web ui将在作业跟踪器的50030端口中可用。如果是基于Yarn的设置,则url将为http://:8088
fslejnso2#
在运行作业之前,不应估计作业将花费多少时间。运行mapreduce作业后,可以估计所用的时间。mapreduce始终取决于您的集群容量—ram大小、cpu内核和网络带宽—以及您为任务设置的缩减器数量。
您只能根据ram大小除以输入分割来进行假设。