我有一个数据集[a],我想用一个字段对它进行分组,生成一个集合,然后用一个void函数处理它。
分组依据 A.field
我用 .groupByKey(_.field)
. 接下来我要处理每个组。我看到有一个 mapGroups
方法,但我要找的是 forEach
它需要一个空函数。当我这样做时:
ds
.groupByKey(_.field)
.mapGroups { (field, data) =>
// stuff
}
我得到了错误 Unable to find encoder for type Unit
.
我可以这样做,但似乎应该有更好的办法:
ds
.groupByKey(_.field)
.mapGroups { (field, data) =>
// stuff
1
}(Encoders.scalaInt)
我看到了另一个问题,我觉得我在做一些根本不正确的事情,但我还没有找到另一种方法。
spark错误:找不到数据集中存储的类型的编码器
暂无答案!
目前还没有任何答案,快来回答吧!