upsert数据在postgresql中使用spark

pgvzfuti  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(319)

我想对postgresql数据执行upsert操作。表中的记录数为3000万条。基于国家,我需要更新数据库中所有3000万条记录的1列。
我目前的做法是:
使用spark加载整个数据
基于条件更新的Dataframe
使用python删除现有数据
在数据库中插入更新的Dataframe
上述方法的问题:
加载整个数据可能导致oom。
没有一个有效的方法来执行upsert使用Spark。
如果有人能建议我什么是完成上述任务的最佳方法?您还可以建议其他大数据工具在数据库中执行upsert。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题