如何优化Spark重新分配或合并?

jtw3ybtb  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(214)

案例1
在运行spark作业并尝试将Dataframe作为表写入时,该表正在创建大约600个小文件(每个文件大约800 kb)-该作业运行大约需要20分钟

df.write.format("parquet").saveAsTable(outputTableName)

案例2
为了避免使用coalesce(1)时出现小文件

df.coalesce(1).write.format("parquet").saveAsTable(outputTableName)

现在这项工作将需要大约15个小时才能完成
案例3
凝聚(10)-作业需要1.5小时

df.coalesce(10).write.format("parquet").saveAsTable(outputTableName)

如何找到分区数是最优的?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题