如何将一个2tb表从rds示例导出到s3或hive？

ep6jt1vc 于 2021-06-03 发布在 Sqoop

关注(0)|答案(1)|浏览(445)

我正在尝试将整个表从我的rds示例（mysql 5.7）迁移到s3（csv文件）或hive。
该表总共有2tb的数据。它有一个blob列，其中存储一个zip文件（通常为100kb，但可以达到5mb）。
我用spark、sqoop和awsdms做了一些测试，但都有问题。我没有使用这些工具从rds导出数据的经验，所以我非常感谢您的帮助。
对于这项任务，最推荐哪一个？你认为什么策略更有效？

sqoop apache-spark amazon-s3 rds dms

来源：https://stackoverflow.com/questions/46525439/how-to-export-a-2tb-table-from-a-rds-instance-to-s3-or-hive

1条答案

按热度按时间

yzckvree1#

您可以使用aws管道将rds数据复制到s3。这是一个例子，它做的事情。
一旦以csv格式转储到s3，就可以很容易地使用spark读取数据并将其注册为配置单元表。

val df = spark.read.csv("s3://...")
df.saveAsTable("mytable") // saves as hive

赞(0）回复(0）举报 2021-06-04

我来回答

如何将一个2tb表从rds示例导出到s3或hive？

1条答案

相关问题

热门标签

最新问答