spark结构化流媒体作业被困数小时而没有被杀死

myzjeezk 于 2021-05-24 发布在 Spark

关注(0)|答案(1)|浏览(375)

我有一个结构化的流式处理作业，它从kafka读取数据，执行聚合并写入hdfs。作业正在Yarn中以群集模式运行。我正在使用spark2.4。每隔2-3天，这项工作就会陷入困境。它不会失败，但会被卡在某个微博客上。微博客甚至都不会启动。驱动程序连续几个小时多次打印以下日志。

Got an error when resolving hostNames. Falling back to /default-rack for all.

当我终止流式处理作业并重新开始时，该作业再次开始正常运行。如何解决这个问题？

1条答案

看到这个问题了吗https://issues.apache.org/jira/browse/spark-28005 这在spark 3.0中是固定的。似乎发生这种情况是因为没有活动的执行者。