将orc格式加载到aurora postgres db

ki1q1bka  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(368)

我们有一个orc文件格式存储在s3中,我们想把文件加载到aws aurora postgres数据库中。
我们从互联网上得到的是:
postgres支持csv、txt和其他不支持orc的格式。。 INSERT OVERWRITE DIRECTORY '<Hdfs-Directory-Path>' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE SELECT * FROM default.foo; 有谁能帮我们找到解决办法吗?

nx7onnlm

nx7onnlm1#

aurora上的postgresql仅支持通过copy命令从txt和csv文件接收s3中的数据。
由于您的文件是orc格式的,您可以将这些磁贴转换为csv或txt格式,然后接收数据。使用athena可以很容易地做到这一点,只需为原始数据创建一个表并运行select*from表查询。如使用查询结果、输出文件和查询历史页面中所述,这将自动生成包含结果的csv文件。这将不是最佳的,因为您不仅要支付转换价格,而且还要支付两倍的he存储(作为原始orc和转换csv),但它将允许您非常容易地转换数据。
更好的方法是使用像aws glue这样的服务,它支持s3作为源代码,并且有一个aurora连接器。使用这种方法将为您提供一个实际的etl,即使您现在只需要e(xtract)和l(oad),仍然会为您将来可能需要的任何类型的转换敞开大门。
在这个名为“如何提取、转换和加载数据以便使用aws glue进行分析处理”(第2部分)的aws博客中,它们显示了相反的流程(aurora->s3 via glue),但它仍然应该让您了解这个过程。

相关问题