我有一些大型数据集,其中一些记录会导致udf崩溃。一旦处理了这样的记录,任务就会失败,从而导致作业失败。这里的问题是本机的(我们使用带有jna的本机fortran库),所以我无法在udf中发现它们。
我想要的是一种容错机制,它允许我跳过/ingore/blacklist坏分区/任务,这样我的spark应用程序就不会失败。
有办法吗?
我唯一能想到的是在foreach循环中处理小块数据:
val dataFilters: Seq[Column] = ???
val myUDF: UserDefinedFunction = ???
dataFilters.foreach(filter =>
try {
ss.table("sourcetable")
.where(filter)
.withColumn("udf_result", myUDF($"inputcol"))
.write.insertInto("targettable")
}
这是不理想的,因为Spark是相对的。处理少量数据的速度慢。e、 g.输入表被多次读取
暂无答案!
目前还没有任何答案,快来回答吧!