如何动态地优化决定Dataframe中的分区数?

m1m5dgzv  于 2021-05-16  发布在  Spark
关注(0)|答案(0)|浏览(195)

我有大约1100万条记录的两个Dataframe。经过转换和一些窗口分析功能,我有大约700万条记录。我目前正在试图找到一种动态的方法来计算分区的数量。通常我从ui中获取Dataframe的大小,然后将其除以256mb(默认情况下是128个分区字节)并决定分区的编号。我想避免这个手动步骤,并想知道是否有任何其他动态和编程的方式来做同样的事情。任何帮助将不胜感激。谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题