如何将postgres(二进制或文本)转储文件导入spark或hdfs?

wgeznvg7  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(435)

我想在spark中使用postgres(二进制或文本)转储文件,想知道如何导入它?我知道我们可以使用sqoop将postgres导入hdfs,并且我可以从spark访问hdfs,但是如果我只有dump文件呢?我必须先把它恢复到postgres数据库吗?我宁愿不去。

xhv8bpkk

xhv8bpkk1#

使用 pg_restore --data-only -t my_table db.dump 你应该用一些注解和一些额外的命令来获得制表符分隔的文本,过滤掉所有你不想要的东西并将该文件写入hdfs是很简单的。
然后从spark或mapreduce将该文件作为csv文件读取。

相关问题