spark:从最后一次写入到下一个阶段的间隔超过一分钟

tvz2xvvm  于 2021-07-09  发布在  Spark
关注(0)|答案(0)|浏览(225)

这是一个迭代算法。我将覆盖hdfs位置中的数据,并按日历日期和迭代次数进行分区。我在试着写2的选项ways:-
第一option:- setting 财产 spark.sql.sources.partitionOverwriteMode=dynamic 按分区覆盖。这样写是按预期工作,下一个阶段写是立即开始,请找到下面的截图。

第二option:- not 设置属性 PartitionOverwrite 并给出直到分区列的覆盖路径(例如: hdfs://....../calendar_date={0}/iteration={1}/ ),这样我就覆盖了 ORC 物理路径后的文件。在选项2中,覆盖按预期工作,但它旁边的阶段不会立即开始。请参阅下面的快照。在这里你可以看到超过1分钟的间隔。你能告诉我为什么在写文件到物理路径时会出现间隔吗。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题