使用javaapi汇总parquets中的金额

syqv5f0l  于 2021-05-27  发布在  Spark
关注(0)|答案(2)|浏览(382)

我是java新手。我在hdfs中有多个parquets,其路径存储在 String[] paths Parquet的形式如下:

Amount |  User
10     |  User1

现在我要计算所有Parquet的总金额,我该怎么做?
是否足以做到:

sparkSession.read().parquet(paths)

或者我需要先做一个 union 或者 join ?

r3i60tvu

r3i60tvu1#

sparkSession.read().parquet(paths) 一次就可以加载所有Parquet数据
您可以使用下面的代码来获得金额的总和列

val sumDf = df.agg(functions.sum("Amount"))
    val sum = sumDf.collectAsList().get(0).getDouble(0)
    println(sum)

注: Amount 以上代码应为double类型

fae0ux8s

fae0ux8s2#

sparksession.read().parquet(路径)足以读取所有parquet

相关问题