我在想办法;
我有一个数据集,它有类似的数据;
ID,name,value,somevalue,
1,"Sam",10,50
2,"Peter",20,100
1,"Sam",20,100
3,"Jack",50,200
问题是我如何将这个转换成那个(我把它们写成伪代码只是想说明我的观点);
Tuple2<Int,<Tuple3<String,Int,Int>>
Row[]
1,Row[("Sam",10,50),("Sam",20,100)]
2,Row[("Peter",20,100)]
3,Row[("Jack",50,200)]
我问这个原因,这应该运行性能,(百万数据点大小)
我正试图用数据集的基本api来实现这一点。
另一种方法是很容易得到唯一的id,然后在大数据集中查询每个id。但这意味着“n unique key”可以查询那个大数据集。
任何帮助都将不胜感激,谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!