scala:使用闭包时任务不可序列化

juzqafwq  于 2021-05-18  发布在  Spark
关注(0)|答案(1)|浏览(577)

因此,我对spark和scala还比较陌生,根据我的理解,您应该能够将闭包传递到map函数中,并让它修改值,不管我得到的是什么 Task not serializable 尝试此操作时出错。
我的代码如下:

// Spark Context
val sparkContext = spark.sparkContext
val random = scala.util.Random

// RDD Initialization
val array = Seq.fill(500)(random.nextInt(51))
val RDD = sc.parallelize(array)

// Spark Operations for Count, Sum, and Mean
var count = RDD.count()
var sum = RDD.reduce(_+_)
val mean = sum / count;

//Output Count, Sum, and Mean
println("Count: " + count)
println("Sum: " + sum)
println("Mean: " + mean)

val difference = (x:Int) => {x - mean}

var differences = RDD.map(difference)

任何帮助都将不胜感激

b5lpy0ml

b5lpy0ml1#

与其定义函数,不如尝试使用val函数

val difference = (x:Int) => {x-mean}

当你使用 def 要定义函数,spark将尝试序列化具有此函数的对象。这通常会导致tasknotserializable,因为该对象中可能存在不可序列化的内容(val或var)。

相关问题