我有一个结构化的流式处理作业,它从kafka读取数据,执行聚合并写入hdfs。作业正在Yarn中以群集模式运行。我正在使用spark2.4。每隔2-3天,这项工作就会陷入困境。它不会失败,但会被卡在某个微博客上。微博客甚至都不会启动。驱动程序连续几个小时多次打印以下日志。
Got an error when resolving hostNames. Falling back to /default-rack for all.
当我终止流式处理作业并重新开始时,该作业再次开始正常运行。如何解决这个问题?
1条答案
按热度按时间hiz5n14c1#
看到这个问题了吗https://issues.apache.org/jira/browse/spark-28005 这在spark 3.0中是固定的。似乎发生这种情况是因为没有活动的执行者。