将orc格式加载到aurora postgres db

ki1q1bka 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(368)

我们有一个orc文件格式存储在s3中，我们想把文件加载到aws aurora postgres数据库中。
我们从互联网上得到的是：
postgres支持csv、txt和其他不支持orc的格式。。 INSERT OVERWRITE DIRECTORY '<Hdfs-Directory-Path>' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE SELECT * FROM default.foo; 有谁能帮我们找到解决办法吗？

hadoop postgresql amazon-s3 orc

来源：https://stackoverflow.com/questions/65033598/load-orc-format-to-aurora-postgres-db

1条答案

按热度按时间

nx7onnlm1#

aurora上的postgresql仅支持通过copy命令从txt和csv文件接收s3中的数据。
由于您的文件是orc格式的，您可以将这些磁贴转换为csv或txt格式，然后接收数据。使用athena可以很容易地做到这一点，只需为原始数据创建一个表并运行select*from表查询。如使用查询结果、输出文件和查询历史页面中所述，这将自动生成包含结果的csv文件。这将不是最佳的，因为您不仅要支付转换价格，而且还要支付两倍的he存储（作为原始orc和转换csv），但它将允许您非常容易地转换数据。
更好的方法是使用像aws glue这样的服务，它支持s3作为源代码，并且有一个aurora连接器。使用这种方法将为您提供一个实际的etl，即使您现在只需要e（xtract）和l（oad），仍然会为您将来可能需要的任何类型的转换敞开大门。
在这个名为“如何提取、转换和加载数据以便使用aws glue进行分析处理”（第2部分）的aws博客中，它们显示了相反的流程（aurora->s3 via glue），但它仍然应该让您了解这个过程。

赞(0）回复(0）举报 2021-05-27

我来回答

将orc格式加载到aurora postgres db

1条答案

相关问题

热门标签

最新问答