案例1
在运行spark作业并尝试将Dataframe作为表写入时,该表正在创建大约600个小文件(每个文件大约800 kb)-该作业运行大约需要20分钟
df.write.format("parquet").saveAsTable(outputTableName)
案例2
为了避免使用coalesce(1)时出现小文件
df.coalesce(1).write.format("parquet").saveAsTable(outputTableName)
现在这项工作将需要大约15个小时才能完成
案例3
凝聚(10)-作业需要1.5小时
df.coalesce(10).write.format("parquet").saveAsTable(outputTableName)
如何找到分区数是最优的?
暂无答案!
目前还没有任何答案,快来回答吧!