scala 有没有一种方法可以使用Spark JDBC将数据插入到SQL表中，而不插入重复项和丢失已有的数据？

a7qyws3x 于 2022-11-09 发布在 Scala

关注(0)|答案(1)|浏览(138)

我正在尝试使用df.Write.jdbc将Spark Dataframe 写入到PostgreSQL表中。问题是，我希望确保不会丢失表中已有的数据(使用SaveMode.Append)，但也要确保避免插入已插入其中的重复数据。
1.因此，如果我使用保存模式。覆盖：
-表将丢失所有以前的数据
1.如果我使用保存模式。追加：

表不会被删除，但会插入重复的记录。
如果我将此模式与数据库中已有的主键一起使用(这将提供唯一约束)，它将返回错误。

有什么办法可以解决这个问题吗？谢谢

scala

来源：https://stackoverflow.com/questions/71770320/is-there-a-way-to-insert-data-into-an-sql-table-using-spark-jdbc-without-inserti

1条答案

按热度按时间

wgeznvg71#

我所做的是过滤掉现有记录，这意味着额外的读取以获取现有ID，并对要追加的数据执行Fitler操作。但它为我做了这件事。
我认为在这篇文章中有一个更复杂的解决方案：
https://medium.com/@thomaspt748/how-to-upsert-data-into-a-relational-database-using-apache-spark-part-1-python-version-b43b9761bbf2
可能很晚了，但刚刚开始了。

赞(0）回复(0）举报 2022-11-09

我来回答

scala 有没有一种方法可以使用Spark JDBC将数据插入到SQL表中，而不插入重复项和丢失已有的数据？

1条答案

相关问题

热门标签

最新问答