pyspark.sql是否将分组数据放入单个分区中？

jrcvhitl 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(194)

在groupeddata.agg（）中使用组聚合自定义项时，如何将此自定义项应用于单个组中的数据？我认为spark首先对数据进行分区，以便将每个组发送给单个执行器（即不拆分），然后由udf对每个组进行本地处理。
是这样吗？
如果是的话，需要注意什么？如果一个组对于一个执行器来说太大，是否会出现内存错误？

apache-spark pyspark

来源：https://stackoverflow.com/questions/63980117/is-pyspark-sql-grouped-data-putting-each-group-into-a-single-partition

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark.sql是否将分组数据放入单个分区中？

暂无答案！

相关问题

热门标签

最新问答