并行地从rds-mysql模式中连续提取数据

gkl3eglg 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(274)

我需要从AmazonAuroraRDS示例中提取数据，并将其加载到s3，使其成为用于分析的数据湖。一个示例中有多个模式/数据库，每个模式都有一组相似的表。我需要并行地从这些表中提取所有模式的选择性列。这应该定期实时捕获dml操作。
可能会出现使用aws提供的数据迁移或复制活动等专用服务的问题。但我不能使用它们，因为我的计划是使解决方案云平台独立，因为它可以托管在azure上。
我原以为apachespark可以用于此，但我知道它不支持jdbc作为结构化流媒体的源代码。为此，我阅读了python中的多线程和多处理技术，但必须评估它们是否合适（其思想是将代码作为守护线程运行，每个线程在后台从单个模式的表中获取数据，并以定义的周期（比如每5分钟）连续运行）。RDS表和S3之间的数据同步也是一个重要的考虑因素。
客户说，为了更详细地讨论源表中的数据，它们有一个自动递增的id字段，但不是连续的，并且由于相应实体的不活动而删除了这些行，因此它们之间可能缺少一些数字。不需要拉取记录的全部数据，只需要拉取配置中预定义的少数数据。解决方案必须是可靠的、可持续的和自动化的。
现在，在决定使用哪种方法以及如何实现解决方案时，我很困惑。因此，我寻求帮助的人谁处理或知道任何解决这个问题的声明。我很高兴提供更多的信息，以防需要得到正确的解决方案。在此方面的任何帮助都将不胜感激。

sql python apache-spark amazon-web-services multithreading

来源：https://stackoverflow.com/questions/62961248/extracting-data-continuously-from-rds-mysql-schemas-in-parallel

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

并行地从rds-mysql模式中连续提取数据

暂无答案！

相关问题

热门标签

最新问答