如何在混合记录中实现数据集分组

sirbozc5  于 2021-06-21  发布在  Flink
关注(0)|答案(0)|浏览(186)

我在想办法;
我有一个数据集,它有类似的数据;

ID,name,value,somevalue,

1,"Sam",10,50
2,"Peter",20,100
1,"Sam",20,100
3,"Jack",50,200

问题是我如何将这个转换成那个(我把它们写成伪代码只是想说明我的观点);

Tuple2<Int,<Tuple3<String,Int,Int>>

Row[]
1,Row[("Sam",10,50),("Sam",20,100)]
2,Row[("Peter",20,100)]
3,Row[("Jack",50,200)]

我问这个原因,这应该运行性能,(百万数据点大小)
我正试图用数据集的基本api来实现这一点。
另一种方法是很容易得到唯一的id,然后在大数据集中查询每个id。但这意味着“n unique key”可以查询那个大数据集。
任何帮助都将不胜感激,谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题