spark结构化流媒体作业被困数小时而没有被杀死

myzjeezk  于 2021-05-24  发布在  Spark
关注(0)|答案(1)|浏览(376)

我有一个结构化的流式处理作业,它从kafka读取数据,执行聚合并写入hdfs。作业正在Yarn中以群集模式运行。我正在使用spark2.4。每隔2-3天,这项工作就会陷入困境。它不会失败,但会被卡在某个微博客上。微博客甚至都不会启动。驱动程序连续几个小时多次打印以下日志。

Got an error when resolving hostNames. Falling back to /default-rack for all.

当我终止流式处理作业并重新开始时,该作业再次开始正常运行。如何解决这个问题?

hiz5n14c

hiz5n14c1#

看到这个问题了吗https://issues.apache.org/jira/browse/spark-28005 这在spark 3.0中是固定的。似乎发生这种情况是因为没有活动的执行者。

相关问题