我有一个数据集,下面是employee对象中的字段。
class Employee {String loginSession, Long loginDateTimeMilli, String name , string empType, String location}
我必须对数据集执行以下操作
group by loginSession
order by loginDateTimeMill
下面是我如何执行相同的
ds.orderBy(col('loginDateTimeMill').asc())
.groupBy(col('loginSession'))
.agg(collect_list(struct) ...) ...
下面是我的输出(示例)
[[loginSession, WrappedArray([name1,emptype1,location1,loginDateTimeMilli_2]
,[name1,emptype1,location1,loginDateTimeMilli_1]
,[name1,emptype1,location1,loginDateTimeMilli_3])]
以下是预期产出
[[loginSession, WrappedArray([name1,emptype1,location1,loginDateTimeMilli_1]
,[name1,emptype1,location1,loginDateTimeMilli_2]
,[name1,emptype1,location1,loginDateTimeMilli_3])]
不知道为什么不行。我做错什么了吗?任何帮助都将不胜感激。我正在使用JavaAPI for spark。
编辑:我正在为每个登录会话创建文件,这是工作正常唯一的问题是细节没有按顺序排序。另外,问题并不是所有生成的文件都会出现,它只会出现在某些文件中。
暂无答案!
目前还没有任何答案,快来回答吧!