关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。
7年前关门了。
改进这个问题
我正在创建一个调查引擎,它将存储各种大型调查的数百万条回复。
有各种各样的机构,每个机构将有10-100个用户。每个人将能够管理3000多个问题的调查。也会有多个机构。
如果每个机构有成百上千个会话,每个会话有3000多个响应,我认为hadoop将是一个很好的候选人,可以获得会话和它们的响应数据来运行各种分析(聚合等)。
会话、调查问题和回答目前都保存在sql数据库中。我在想,我会保留这些数据,并将其并行处理。因此,当一个新的会话在一个代理下进行时,它就会被添加到hadoop的“文件”中,这样当调用整个数据集时,它就会被包括在内。
这个实现在hadoop中是否可以很好地工作,或者我是否仍然在关系数据库的范围内?
1条答案
按热度按时间eit6fx6z1#
我想没人能确切地告诉你,是还是不是。我也不认为我从问题的措辞上完全理解了你的程序将要做什么,然而,一般来说,hadoopmap/reduce擅长批量处理大量数据。它并不意味着是一个交互式(又名实时)工具。因此,如果您的系统:
1) 将运行计划的工作来分析调查结果,生成趋势,总结数据等…那么是的,m/r将是一个很好的适合这个。
2) 将允许用户通过指定他们感兴趣的内容来搜索调查,并根据他们的输入实时获取报告……那么不,m/r可能不是最好的工具。您可能想看看hbase。我还没有用过它,但是hive是一个基于查询的工具,但是我不确定它的“实时性”如何。此外,drill是一个新兴的项目,在交互式查询大数据方面前景看好。