val repartitionedWikiDF = wikiDF.repartition(16)
val targetPath = f"{workingDir}/wiki.parquet"
repartitionedwikiDF.write.mode("OVERWRITE").parquet(targetPath)
display(dbutils.fs.ls(targetPath))
你也可以表演 df.repartition(col, N) . 还有 range partitioning . 最佳方法如下:
1条答案
按热度按时间ergxz8rk1#
通常,您总是从工作节点写入databricks表。如你所见,应该不惜一切代价避免收取费用。
为了避免oom问题,您应该像大多数人一样,重新分区您的记录,使它们符合允许的分区大小限制-2gb或现在4gb的较新的spark版本,在您的工作节点上,一切都很好。例如。:
你也可以表演
df.repartition(col, N)
. 还有range partitioning
.最佳方法如下: