假设我有一个spark2.x应用程序,它启用了推测功能(spark.squations=true),将数据写入hdfs上的特定位置。现在,如果任务(将数据写入hdfs)需要很长时间,spark将在另一个执行器上创建同一任务的副本,两个作业将并行运行。spark是如何处理的?显然,这两个任务不应该同时在同一个文件位置写入数据(在本例中似乎是这样)。任何帮助都将不胜感激。谢谢
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!