我正在设计和实现一个(近)实时网络分析引擎。这与google分析和chartbeat类似。预计每天有近1.5亿个请求。我们有5到8台机器,每台都有2.5ghz(8核)cpu和16GB ram。
我正在为这个需求寻找横向可扩展的解决方案。目前,我正在为此分析mongo-hadoop组合。据我所知,到目前为止,很难将所有数据保存在一个地方(一台机器)进行分析。因此,hadoop作为数据处理器和mongodb作为数据存储在我看来是一个很好的组合。
对于这种应用程序,是否有一个标准或者(我应该说)一个经过验证的体系结构?我应该考虑哪些设计因素?mongo-hadoop的组合对某人有用吗?
1条答案
按热度按时间c8ib6hqw1#
我想你已经读过这个了?
http://www.mongodb.org/display/docs/hadoop+quick+start
更多关于切分配置的细节和工作示例http://www.slideshare.net/spf13/mongodb-and-hadoop