我希望能够通过一个连续的etl管道将mongodb生产数据移动到hdfs,以便能够在上面运行spark/mr作业。
我知道hadoopmongodb连接器的存在是为了从mongodb中读/写数据,但是我不想引起网络i/o,因此,我最好设置一个etl管道,从mongodb中读取diff并写入hdfs。
出于显而易见的原因,我不想定期将整个集合复制到hdfs,而只复制diff。
有什么建议我如何做到这一点?
我现在想的是读取mongodb操作日志,并将这些操作日志应用到以前的db快照(已经保存在hdfs中)上,以在hdfs中创建当前mongodb快照。
有什么比这更好的吗?
暂无答案!
目前还没有任何答案,快来回答吧!