容错—是否可以忽略spark中失败的任务

r6hnlfcb 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(272)

我有一些大型数据集，其中一些记录会导致udf崩溃。一旦处理了这样的记录，任务就会失败，从而导致作业失败。这里的问题是本机的（我们使用带有jna的本机fortran库），所以我无法在udf中发现它们。
我想要的是一种容错机制，它允许我跳过/ingore/blacklist坏分区/任务，这样我的spark应用程序就不会失败。
有办法吗？
我唯一能想到的是在foreach循环中处理小块数据：

val dataFilters: Seq[Column] = ???
val myUDF: UserDefinedFunction = ???

dataFilters.foreach(filter =>
  try {
    ss.table("sourcetable")
      .where(filter)
      .withColumn("udf_result", myUDF($"inputcol"))
      .write.insertInto("targettable")
  }

这是不理想的，因为Spark是相对的。处理少量数据的速度慢。e、 g.输入表被多次读取

apache-spark fault-tolerance

来源：https://stackoverflow.com/questions/63616271/is-it-possible-to-ignore-failed-tasks-in-spark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

容错—是否可以忽略spark中失败的任务

暂无答案！

相关问题

热门标签

最新问答