flink yarn会话模式在同时运行~10个批处理作业时变得不稳定

0aydgbwb  于 2021-06-21  发布在  Flink
关注(0)|答案(1)|浏览(301)

我正在尝试设置flinkYarn会话以运行~100多个批处理作业。在连接到~40个任务管理器和~10个正在运行的作业(每个任务管理器有2个插槽和1gb内存)之后,会话似乎变得不稳定。有足够的资源可用。FlinkUI突然变得不可用,我猜作业经理可能已经死了。最终,Yarn应用程序也被终止了。
作业管理器正在4核16gb节点上运行12 gb可用
有没有什么指导来计算作业管理器资源与它能处理的任务管理器数量的关系?

lnlaulya

lnlaulya1#

我把这个修好了。flink会话中断的原因是集群中工作机的带宽较低。运行任务管理器容器的工作计算机应至少具有750mbps或更高。由于每个任务管理器都有2个插槽和1gb内存,因此中等带宽~450mbps不会减少内存。如果作业是io密集型的,则参与者(作业经理和工人或工人与工人)之间的通信可能会超时(默认的ask超时为100ms)。
我决定不增加ask超时,这样作业就不会因为这个瓶颈而花费很长时间。

相关问题