我是spark的新手,有一个用例可以找到一列中所有值的总和。每列都是一个整数数组。
df.show(2,false)
+------------------+
|value |
+------------------+
|[3,4,5] |
+------------------+
|[1,2] |
+------------------+
要查找的值3+4+5+1+2=15
有人能帮我/指导我如何做到这一点吗?
编辑:我必须在spark 2.3中运行此代码
1条答案
按热度按时间s3fp2yjn1#
一种选择是总结
array
然后计算总的和。这可以通过spark sql函数完成aggregate
可从spark 2.4.0版获得。另一种选择是使用
explode
. 但请注意,这种方法将生成大量要在其上聚合的数据。