初学者问题。我读了这篇关于hadoop/mapreduce的文章
http://www.amazedsaint.com/2012/06/analyzing-some-big-data-using-c-azure.html
我理解了hadoop,什么是map,什么是reduce。
对我来说,如果我的应用程序位于hadoop集群之上
1) 不再需要数据库了?
2) 如何首先从asp.net mvc应用程序将数据导入hadoop?假设它是stackoverflow(用mvc编码)。在我发布这个问题之后,这个问题以及标题、正文和标记如何进入hadoop?
3) 在上面的文章中,它收集了有关stakoverflow上使用的“名称空间”的数据以及它们被使用了多少次。
如果此站点stackoverflow希望实时显示来自mapreducer的结果数据,您如何做到这一点?
很抱歉问了新手问题。我只是想一张一张地把照片弄清楚。
1条答案
按热度按时间yws3nbqq1#
1) 这将取决于应用程序。很可能您仍然需要数据库来进行用户管理等。
2) 如果您使用的是amazonemr,那么您可以使用.netapi(或其他方式)将输入放入s3,并以相同的方式得到结果。你也可以通过api直接监控你的emr账户。
3) hadoop并不是一个真正的实时环境,更多的是一个批处理系统。您可以通过连续处理传入的数据来模拟实时性,但这仍然不是真正的实时性。
我建议看一看amazonemr.net文档,读一本关于hadoop的好书(比如hadoop在实践中理解堆栈和概念以及hive(比如编程hive)
当然,你也可以把他们最擅长的环境混合起来;例如,将azure网站和sqlazure用于.net应用程序,将amazon emr用于hadoop/hive。考虑到成本模型,不需要把所有东西都停在一个地方。
希望这有帮助。