我需要从AmazonAuroraRDS示例中提取数据,并将其加载到s3,使其成为用于分析的数据湖。一个示例中有多个模式/数据库,每个模式都有一组相似的表。我需要并行地从这些表中提取所有模式的选择性列。这应该定期实时捕获dml操作。
可能会出现使用aws提供的数据迁移或复制活动等专用服务的问题。但我不能使用它们,因为我的计划是使解决方案云平台独立,因为它可以托管在azure上。
我原以为apachespark可以用于此,但我知道它不支持jdbc作为结构化流媒体的源代码。为此,我阅读了python中的多线程和多处理技术,但必须评估它们是否合适(其思想是将代码作为守护线程运行,每个线程在后台从单个模式的表中获取数据,并以定义的周期(比如每5分钟)连续运行)。RDS表和S3之间的数据同步也是一个重要的考虑因素。
客户说,为了更详细地讨论源表中的数据,它们有一个自动递增的id字段,但不是连续的,并且由于相应实体的不活动而删除了这些行,因此它们之间可能缺少一些数字。不需要拉取记录的全部数据,只需要拉取配置中预定义的少数数据。解决方案必须是可靠的、可持续的和自动化的。
现在,在决定使用哪种方法以及如何实现解决方案时,我很困惑。因此,我寻求帮助的人谁处理或知道任何解决这个问题的声明。我很高兴提供更多的信息,以防需要得到正确的解决方案。在此方面的任何帮助都将不胜感激。
暂无答案!
目前还没有任何答案,快来回答吧!