处理大数据集的最佳方法

k4ymrczo 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(418)

我用spark来寻找大数据集的媒体，大约是（300pb）。优化的最佳方法是什么(顺便说一句，结果不必严格精确）

1条答案

您可以用两种方法解决这个问题：1-使用meanapprox（长超时，双置信）函数，它返回超时和置信范围内的近似平均值。
2-您可以使用sample（双分数、boolean with replacement、long seed、sparkplan child）方法来实现您的目的，例如：

sampledRDD = rdd.sample(False, sample, seed)
approxMean = sampledRDD.mean()

我希望这能帮你解决问题。更多详情请访问https://spark.apache.org/docs 更多信息。