让我来解释一下这个场景:我在s3(orc,parquet)上存储了数百个hive表,所以很明显没有hdf。现在,我有兴趣将其中一些迁移到redshift来运行一些性能测试。我知道redshift不支持orc,parquet,所以我需要创建一些csv/json来使用copy命令。我正在考虑使用配置单元本身来创建临时csv表,然后迁移到红移。我也在考虑使用spark来移动这些数据。有没有人在这种情况下有经验?
让我来解释一下这个场景:我在s3(orc,parquet)上存储了数百个hive表,所以很明显没有hdf。现在,我有兴趣将其中一些迁移到redshift来运行一些性能测试。我知道redshift不支持orc,parquet,所以我需要创建一些csv/json来使用copy命令。我正在考虑使用配置单元本身来创建临时csv表,然后迁移到红移。我也在考虑使用spark来移动这些数据。有没有人在这种情况下有经验?
2条答案
按热度按时间mdfafbf11#
有一种简单的方法可以将数据迁移到红移。因此,首先需要将parquet或orc加载到spark(pyspark、java或scala)中,然后可以使用databricks包直接将这些数据插入redshift。下面是databricks包的链接,其中包括一些示例。
https://github.com/databricks/spark-redshift
f1tvaqid2#
您可以设置红移光谱,使s3表看起来像红移表,然后可以直接查询数据或将其引入内部红移表。
https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html
兽人和Parquet地板是完全支持。
https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html