我用spark来寻找大数据集的媒体,大约是(300pb)。优化的最佳方法是什么(顺便说一句,结果不必严格精确)
bxpogfeg1#
您可以用两种方法解决这个问题:1-使用meanapprox(长超时,双置信)函数,它返回超时和置信范围内的近似平均值。2-您可以使用sample(双分数、boolean with replacement、long seed、sparkplan child)方法来实现您的目的,例如:
sampledRDD = rdd.sample(False, sample, seed) approxMean = sampledRDD.mean()
我希望这能帮你解决问题。更多详情请访问https://spark.apache.org/docs 更多信息。
1条答案
按热度按时间bxpogfeg1#
您可以用两种方法解决这个问题:1-使用meanapprox(长超时,双置信)函数,它返回超时和置信范围内的近似平均值。
2-您可以使用sample(双分数、boolean with replacement、long seed、sparkplan child)方法来实现您的目的,例如:
我希望这能帮你解决问题。更多详情请访问https://spark.apache.org/docs 更多信息。