pyspark 从Azure数据块中的多任务作业写入分区增量表时出错

xnifntxz 于 2022-11-01 发布在 Spark

关注(0)|答案(2)|浏览(971)

我有一个笔记本，它使用类似于以下语句的语句来编写增量表：

match = "current.country = updates.country and current.process_date = updates.process_date"
deltaTable = DeltaTable.forPath(spark, silver_path)
deltaTable.alias("current")\
.merge(
    data.alias("updates"),
    match) \
  .whenMatchedUpdate(
      set = update_set,
      condition = condition) \
  .whenNotMatchedInsert(values = values_set)\
  .execute()

多任务作业具有两个并行执行的任务。x1c 0d1x
执行作业时，显示以下错误：

**ConcurrentAppendException：**文件被并发更新添加到分区[country=帕纳马，process_date=2022-01-01 00：00：00]。请重试该操作。

在每个任务中，我发送了不同的国家（巴拿马、厄瓜多尔）和相同的日期作为参数，因此在执行时，只需要写入与所发送的国家相对应的信息。该delta表由country和process_date字段进行分区。您知道我做错了什么吗？在使用“merge”语句时，我应该如何指定受影响的分区？
如果您能说明在这些情况下我应该如何使用分区，我将不胜感激，因为这对我来说是新的。

**更新：**我在条件中进行了调整，以根据此处指示的内容指定国家/地区和处理日期（ConcurrentAppendException）。现在我收到以下错误消息：
**ConcurrentAppendException：**并发更新已将文件添加到表的根目录。请重试该操作。

我想不出是什么原因导致错误。继续调查。

pyspark

来源：https://stackoverflow.com/questions/71075543/error-writing-a-partitioned-delta-table-from-a-multitasking-job-in-azure-databri

2条答案

按热度按时间

yhxst69z1#

错误-并发追加异常：文件已通过并发更新添加到表的根目录。请重试该操作。
此异常错误通常在并发DELETE、UPDATE或MERGE操作期间引发。虽然并发操作可能物理更新不同的分区目录，但其中一个操作可能读取另一个操作并发更新的同一分区，从而导致冲突。通过在操作条件中明确分隔，可以避免这种情况。
在Map中使用'Update Strategy'转换时，将对Delta Lake目标表执行更新查询。对同一个目标表使用多个Update Strategy转换时，将并行执行多个UPDATE查询，因此，目标数据将不可预测。由于并发UPDATE查询的Delta Lake目标中存在不可预测的数据方案，**不支持在Map中对每个“数据块Delta Lake表”使用多个“更新策略”转换。**请重新设计Map，使每个Delta Lake表都有一个“更新策略”转换。

解决方案-

在对每个Databricks Delta Lake表使用一个“更新策略”转换运行Map时，执行将成功完成。
请参阅-https://docs.delta.io/latest/concurrency-control.html#avoid-conflicts-using-partitioning-and-disjoint-command-conditions

赞(0）回复(0）举报 2022-11-01

ktecyv1j2#

最初，受影响的表只有一个日期字段作为分区。所以我用国家和日期字段对其进行分区。这个新分区创建了国家和日期目录，但日期分区的旧目录仍然存在，没有被删除。