处理大数据集的最佳方法

k4ymrczo  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(418)

我用spark来寻找大数据集的媒体,大约是(300pb)。优化的最佳方法是什么(顺便说一句,结果不必严格精确)

bxpogfeg

bxpogfeg1#

您可以用两种方法解决这个问题:1-使用meanapprox(长超时,双置信)函数,它返回超时和置信范围内的近似平均值。
2-您可以使用sample(双分数、boolean with replacement、long seed、sparkplan child)方法来实现您的目的,例如:

sampledRDD = rdd.sample(False, sample, seed)
approxMean = sampledRDD.mean()

我希望这能帮你解决问题。更多详情请访问https://spark.apache.org/docs 更多信息。

相关问题