live-stream-multi-level word count使用apache storm

yqlxgs2m  于 2021-06-21  发布在  Storm
关注(0)|答案(1)|浏览(263)

我想找到热门的地理词汇基于推特饲料使用apache风暴。我看到很多例子都很好用。
http://www.zdatainc.com/2014/07/real-time-streaming-apache-storm-apache-kafka/httpshttp://github.com/davidkiss/storm-twitter-word-count
但我想基于地理位置增强上述解决方案。许多twitter状态(tweets)都带有地理位置。我想将单词计数示例拆分为mxn矩阵,其中m和n表示相对地理坐标,例如(3x4=30.x40.)纬度和经度。
我想根据apachestorm拓扑将输入流拆分为多个计数器。为单个坐标单元(例如x,y)唯一运行的geo word计数器
我得到的一个解决方案是,为每个组合注册mxn个螺栓。但这几乎是蛮力。第二种解决方案:使用字段分组(x,y字段)无法正常工作。我可以看到相同的螺栓运行在相同的x和y组合上。我在本地集群中运行。
请提出一些建议。

cwdobuhd

cwdobuhd1#

您的方法应该是可行的,但如果不行,请尝试将纬度和经度转换为字符串,然后将它们连接到单个字段中,并使用该字段进行字段分组。

相关问题