pyspark.sql是否将分组数据放入单个分区中?

jrcvhitl  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(194)

在groupeddata.agg()中使用组聚合自定义项时,如何将此自定义项应用于单个组中的数据?我认为spark首先对数据进行分区,以便将每个组发送给单个执行器(即不拆分),然后由udf对每个组进行本地处理。
是这样吗?
如果是的话,需要注意什么?如果一个组对于一个执行器来说太大,是否会出现内存错误?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题