为什么在spark中使用hivecontex的分位数计算非常慢？

7xllpg7q 于 2021-06-29 发布在 Hive

关注(0)|答案(1)|浏览(479)

我使用10 gb csv文件创建了配置单元表。然后尝试运行sql查询。在处理数据时，通话时间超过2小时。有人能告诉我这是不是Spark的问题吗？？或者我做错了什么。
我尝试了所有可能的组合，比如改变执行器的数量、内核和执行器内存。

--driver-memory 10g\
 --num-executors 10\
 --executor-memory 10g\
 --executor-cores 10\

我通过改变num执行器进行测试，比如10、15、20、50100，对于内存和内核也是如此。
说到集群，它有6个节点380+核和1tb内存。

My SQL query:
select
percentile_approx(x1, array(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)) as x1_quantiles,
percentile_approx(x2, array(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)) as x2_quantiles,
percentile_approx(x3, array(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)) as x3_quantiles 
from mytest.test1

代码非常简单

val query= args(0)

    val sparkConf= new SparkConf().setAppName("Spark Hive")

    val sc = new SparkContext(sparkConf)
    val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
    sqlContext.cacheTable(" mytest.test1")
    val start = System.currentTimeMillis()

    val testload=sqlContext.sql(query)

    testload.show()
    val end = System.currentTimeMillis()
    println("Time took " + (end-start) + " ms")

Hive scala apache-spark apache-spark-sql quantile

来源：https://stackoverflow.com/questions/38019704/why-quantile-computation-using-hivecontex-in-spark-is-very-slow

1条答案

按热度按时间

wwtsj6pe1#

嗯，这不是Spark问题。由于需要排序和相关的洗牌，在分布式环境中计算精确分位数是一个昂贵的过程。由于您在不同的列上计算百分位数，因此此过程会重复多次，如果变量之间没有强相关性，则成本会特别高。除非必要，通常你应该计算精确的百分位数。
spark2.0.0实现了分位数近似的可调方法，如果您使用的是早期版本，您可以通过简单的采样获得类似的结果。了解如何使用spark查找中间值

赞(0）回复(0）举报 2021-06-29

我来回答

为什么在spark中使用hivecontex的分位数计算非常慢？

1条答案

相关问题

热门标签

最新问答