如何比较hive对mr工作绩效的影响?

r1zhe5dt  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(268)

要知道两个查询中哪一个在同一个集群上最快,但与当时的集群使用情况无关,最好的方法是什么?
如果第一个查询在集群负载较低时运行,而第二个查询在负载较高时运行,则持续时间将不准确。
我一直使用总mapreduce cpu时间(cp毫秒),但它看起来可能不准确,因为一些非mr操作不计入cpu时间(例如输入文件解压缩)。

m1m5dgzv

m1m5dgzv1#

运行map reduce作业时,通过选择正确的作业id,您可以在作业浏览器“https://:8088”上查看与该作业相关的所有统计信息。我们还可以使用ganglia等ui工具获取作业详细信息,如内存消耗、gc暂停,这些工具提供了有关cup当前使用状态的详细信息,这些hadoop作业还通过文件公开了它们的jmx。可以在“https:///jmx”上检查这些数据。我们可以使用jmeter、jconsole等工具获得统计数据,并将jmx暴露给graphite或grafana等 Jmeter 板工具。

相关问题