你好,我有一个pyspark dataframe的形式:
CATEGORY VALUE
0 A [4, 5, 6]
1 A [1, 2, 3]
2 B [7, 8, 9]
我希望我的输出是
CATEGORY VALUE
0 A [5, 7, 9]
1 B [7, 8, 9]
实际的dataframe是~2billion记录,每个数组是~1500个元素,所以这需要尽可能高效,我已经尝试将数组扩展到列,然后groupby在我的示例中工作良好,但我需要一个更有效的解决方案来实现完整的dataframe。
谢谢!
1条答案
按热度按时间6g8kf2rb1#
要实现所需的输出,最好的办法是使用
UDF
,它将以行方式工作。数据准备
全要素聚合-自定义项