如何优化Spark重新分配或合并？

jtw3ybtb 于 2021-05-26 发布在 Spark

关注(0)|答案(0)|浏览(214)

案例1
在运行spark作业并尝试将Dataframe作为表写入时，该表正在创建大约600个小文件（每个文件大约800 kb）-该作业运行大约需要20分钟

df.write.format("parquet").saveAsTable(outputTableName)

案例2
为了避免使用coalesce（1）时出现小文件

df.coalesce(1).write.format("parquet").saveAsTable(outputTableName)

现在这项工作将需要大约15个小时才能完成
案例3
凝聚（10）-作业需要1.5小时

df.coalesce(10).write.format("parquet").saveAsTable(outputTableName)

如何找到分区数是最优的？

目前还没有任何答案，快来回答吧！

相关问题