我正在评估各种系统监控工具,以便使用它们来监控hadoop集群。我印象深刻的工具之一是collectl。从几天起我就一直在玩它。
我正在努力寻找如何在使用colmux时聚合collectl捕获的度量?
比方说,我的hadoop集群中有10个节点,每个节点都将collectl作为服务运行。使用colmux,我可以在单个视图中查看每个节点的性能指标(以单行和多行格式)。太好了!
但是如果我考虑集群中所有节点上的cpu、io等的聚合呢。也就是说,我想通过将每个节点的性能指标聚合到相应的数字中,从而得到集群级别的指标,而不是节点级别的指标,来了解集群作为一个整体的性能。
非常感谢您的帮助。谢谢!
1条答案
按热度按时间mlmc2os51#
我已经在邮件列表上回答了这个问题,但是为了那些不在邮件列表上的人的利益,我将在这里重复我自己。。
那是个很酷的主意。所以,如果我理解正确的话,你可能会在底部看到一些总行?我总是可以添加到我的愿望清单,但没有承诺。但我想如果你不介意自己做点额外的工作的话,我也可能有一个解决办法;)顺便说一句-我可以假设您已经安装了readkey,这样您就可以用箭头键更改排序列了吗?
如果您使用--noesc运行colmux,它将使它不再全屏显示,而只是将所有内容打印为滚动输出。如果您还包括“--lines99999”(或一些大的数字),它将打印所有远程系统的所有输出,这样您就不会错过任何东西。最后,您可以通过perl、python、bash或任何您最喜欢的脚本工具对输出进行管道化处理,并自己进行汇总。然后,每当你看到一个新的标题飞过,打印总数和重置计数器为0。您甚至可以添加时间戳,甚至可能最终使其成为您自己的开源项目。我打赌其他人也会觉得它很有用。
-标记