我想在spark中使用postgres(二进制或文本)转储文件,想知道如何导入它?我知道我们可以使用sqoop将postgres导入hdfs,并且我可以从spark访问hdfs,但是如果我只有dump文件呢?我必须先把它恢复到postgres数据库吗?我宁愿不去。
xhv8bpkk1#
使用 pg_restore --data-only -t my_table db.dump 你应该用一些注解和一些额外的命令来获得制表符分隔的文本,过滤掉所有你不想要的东西并将该文件写入hdfs是很简单的。然后从spark或mapreduce将该文件作为csv文件读取。
pg_restore --data-only -t my_table db.dump
1条答案
按热度按时间xhv8bpkk1#
使用
pg_restore --data-only -t my_table db.dump
你应该用一些注解和一些额外的命令来获得制表符分隔的文本,过滤掉所有你不想要的东西并将该文件写入hdfs是很简单的。然后从spark或mapreduce将该文件作为csv文件读取。