何时修改spark中的maxPartitionBytes值

vsaztqbk  于 2023-05-01  发布在  Apache
关注(0)|答案(1)|浏览(127)

我知道默认情况下spark.sql.files.maxPartitionBytes的值是128 MB,但我想知道在大多数情况下,考虑到读取超过1个文件的情况,该值是否足够。e三个文件~ 10 GB、~ 68 GB和~5GB)。并且如果该值存在限制,则可能与核心存储器相关。
或者,如果由于AQE而没有必要更改它,就像 Shuffle 分区和合并的情况一样。

zxlwwiss

zxlwwiss1#

我认为围绕这个参数仍然值得一试。一般来说,如果你想改变它,你应该考虑你的其他设置(执行器/内存/核心的数量)
如果该值有限制,则可能与内核内存有关
没有限制,但你应该记住你的执行器的总执行内存是多少,每个执行器的核心数。例如,如果您将此参数增加到1gb,但您将只有4gb的内存与5个核心,您可能会有问题
或者,如果由于AQE而没有必要更改它,就像 Shuffle 分区和合并的情况一样。
AQE将优化您的分区,这是真的,但它将能够做到这一点后,第一次 Shuffle 。因此,您可能会面临这样的情况,即您将创建非最佳分区,只是为了稍后修复它们

相关问题