在groupeddata.agg()中使用组聚合自定义项时,如何将此自定义项应用于单个组中的数据?我认为spark首先对数据进行分区,以便将每个组发送给单个执行器(即不拆分),然后由udf对每个组进行本地处理。是这样吗?如果是的话,需要注意什么?如果一个组对于一个执行器来说太大,是否会出现内存错误?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!