我是java新手。我在hdfs中有多个parquets,其路径存储在 String[] paths Parquet的形式如下:
String[] paths
Amount | User 10 | User1
现在我要计算所有Parquet的总金额,我该怎么做?是否足以做到:
sparkSession.read().parquet(paths)
或者我需要先做一个 union 或者 join ?
union
join
r3i60tvu1#
sparkSession.read().parquet(paths) 一次就可以加载所有Parquet数据您可以使用下面的代码来获得金额的总和列
val sumDf = df.agg(functions.sum("Amount")) val sum = sumDf.collectAsList().get(0).getDouble(0) println(sum)
注: Amount 以上代码应为double类型
Amount
fae0ux8s2#
sparksession.read().parquet(路径)足以读取所有parquet
2条答案
按热度按时间r3i60tvu1#
sparkSession.read().parquet(paths)
一次就可以加载所有Parquet数据您可以使用下面的代码来获得金额的总和列
注:
Amount
以上代码应为double类型fae0ux8s2#
sparksession.read().parquet(路径)足以读取所有parquet