如何在混合记录中实现数据集分组

sirbozc5 于 2021-06-21 发布在 Flink

关注(0)|答案(0)|浏览(186)

我在想办法；
我有一个数据集，它有类似的数据；

ID,name,value,somevalue,

1,"Sam",10,50
2,"Peter",20,100
1,"Sam",20,100
3,"Jack",50,200

问题是我如何将这个转换成那个（我把它们写成伪代码只是想说明我的观点）；

Tuple2<Int,<Tuple3<String,Int,Int>>

Row[]
1,Row[("Sam",10,50),("Sam",20,100)]
2,Row[("Peter",20,100)]
3,Row[("Jack",50,200)]

我问这个原因，这应该运行性能，（百万数据点大小）
我正试图用数据集的基本api来实现这一点。
另一种方法是很容易得到唯一的id，然后在大数据集中查询每个id。但这意味着“n unique key”可以查询那个大数据集。
任何帮助都将不胜感激，谢谢。

目前还没有任何答案，快来回答吧！

相关问题