关于我的个人资料-我正在为我们集群上运行的一些bde informatica摄取作业提供l3支持。我们的目标是帮助应用程序团队满足sla。我们支持在hadoop层(hive)上运行的作业流。
问题陈述-我们观察到,有些日子bde informatica的摄取工作速度非常慢,有些日子则在3小时内完成。如果这项工作花了那么多时间,我们通常会终止并重新运行,这对我们有帮助,但这并不能帮助我们解决根本原因。
我们简介的局限性-不幸的是,我没有应用程序代码或informatica工具,但我必须连接到开发团队并提出相关问题,以便我们能够缩小根本原因。
下一步-
什么样的情况会导致这种延迟?
我可以用什么工具来检查延误的原因?
我可能会问开发团队的几个问题是-
在运行作业流之前,是否对表进行了正确的分析?
数据量是否有任何显著的变化(这是不太可能的,因为作业在重新运行时运行很快)?
我知道这是一个非常广泛的问题,是在寻求帮助的方法,而不是任何参加一个具体的问题,但这只是一个开始,以帮助解决这个问题,为好,或以理性的方式处理它。
1条答案
按热度按时间06odsfpq1#
你需要检查informatica日志,看看它是否每次都挂在同一个步骤上。
假设不是,你每天都在同一时间触发工作。。。比如说午夜,通常凌晨3点就结束了。。。但有时它会一直持续到上午10点,在那里你杀人然后重新开始?
如果是这样,我建议您在最小负载、3小时快速运行和10小时负载的情况下,对存储介质的活动设置基线。需求有差异吗?
这听起来像是一场争论,但这正引起一场冲突。当所需资源可用时,进程可能会永远等待,而不是继续。与DBA交谈。