dump从mongodb到cosmos的twitter推文

thtygnil  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(361)

我想知道,为了运行一个非常简单的mr作业,将从twitter流式api获得的大量tweet转储到cosmos中的最佳方法应该是什么。
我在考虑把收藏文档转换成csv,可能每行一个,然后把它们转换成cosmos。但我不确定是否需要配置单元在那里运行mr作业,或者我可以以更手动的方式运行作业。我在考虑用python来实现这个目的,我更喜欢不用java。
谢谢

vnjpjtjt

vnjpjtjt1#

我认为没有必要转储数据,可以使用haddop的mongodb连接器。另外,这样的连接器允许您仅在处理数据时获取数据,从hadoop的map进程需要的数据拆分中获取记录。我是说,不用默认值 FileInputFormat ,您使用 MongoInputFormat ,实现 InputFormat 接口,从而提供了一种获取拆分列表的方法(这将是mongodb中数据的某种大小不变的分区,例如集合的chunck)和一种获取拆分中记录的方法(例如集合的chunck中的json文档)。
这种连接器必须安装在集群的所有节点上;它在我们的路线图中,与我们自己的连接器一起以类似的方式为ckan工作。九月底到期。
也就是说,如果出于任何原因,您仍然希望将数据转储到hdfs,那么最好的办法是创建一个脚本,负责读取mongodb数据并将其转换为天鹅座可以理解的ngsi通知;然后天鹅座会做剩下的工作。

相关问题