从azure databricks将数据加载到azure sql db时，错误无法在对象中插入重复的键行

pokxtpni 于 2021-05-27 发布在 Spark

关注(0)|答案(2)|浏览(431)

我在中使用以下简单的代码行将数据从azuredatabricks加载到sqldb

val loadsqldb = spark.sql("""SELECT * FROM TABLEA""")
// WRITE FROM CONFIG
val writeConfig = Config(Map(
  "url"          -> url,
  "databaseName" -> databaseName,
  "dbTable"      -> "dbo.TABLENAME",
  "user"         -> user,
  "password"     -> password,
  "connectTimeout" -> "5"
))

//~
loadsqldb.write.mode(SaveMode.Overwrite).option("truncate", true).sqlDB(writeConfig)

我们的服务器上有一个唯一的id密钥，必须保留该密钥，如下所示：

CREATE UNIQUE INDEX i__NeighbourhoodCategoryHourlyForecast_unique
ON almanac_devdb.dbo.NeighbourhoodCategoryHourlyForecast (fk_neighbourhoods, fk_categories, local_date, local_hour)
GO

当我尝试将数据加载到我们的sql数据库时，我们得到以下错误：；

Cannot insert duplicate key row in object 'dbo.TABLENAME' with unique index 'i__TABLENAME_unique'. The duplicate key value is (36983, 130000, 2020-08-12, 14).

有人建议我找到一种方法让databricks合并到一个overwrite中，但我不知道该怎么做，甚至不知道这样做是否正确？

apache-spark sql-server azure-databricks

来源：https://stackoverflow.com/questions/63417343/error-cannot-insert-duplicate-key-row-in-object-while-loading-data-into-azure-sq

2条答案

按热度按时间

xn1cxnb41#

我建议遵循以下步骤（不要更改spark端的任何内容，而是在sql server端执行以下步骤）-
在顶部创建视图 target_table 你想在哪里写sparkDataframe数据
创建而不是插入触发器，这样所有插入命令都应该通过步骤1中创建的视图

CREATE TRIGGER <trigger_name> 
ON <view_created_in_step_1>
INSTEAD OF INSERT
AS
BEGIN
    Merge statment...

END

用于插入和更新singe语句的merge语句。遵循本教程。
如果键（not）匹配，您可能还需要查看本教程中与事务相关的查询，以更新或插入表

赞(0）回复(0）举报 2021-05-27

9lowa7mx2#

删除唯一索引键的重复项。

df.dropDuplicates(Array("col1","col2"))

之后，尝试写入数据库。

赞(0）回复(0）举报 2021-05-27

我来回答

从azure databricks将数据加载到azure sql db时，错误无法在对象中插入重复的键行

2条答案

相关问题

热门标签

最新问答