mongodbetl到hdfs

vngu2lb8  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(137)

我希望能够通过一个连续的etl管道将mongodb生产数据移动到hdfs,以便能够在上面运行spark/mr作业。
我知道hadoopmongodb连接器的存在是为了从mongodb中读/写数据,但是我不想引起网络i/o,因此,我最好设置一个etl管道,从mongodb中读取diff并写入hdfs。
出于显而易见的原因,我不想定期将整个集合复制到hdfs,而只复制diff。
有什么建议我如何做到这一点?
我现在想的是读取mongodb操作日志,并将这些操作日志应用到以前的db快照(已经保存在hdfs中)上,以在hdfs中创建当前mongodb快照。
有什么比这更好的吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题