mapreduce数据挖掘项目

xxls0lw8  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(387)

我计划做一个涉及hadoop库的mapreduce项目,并在aws上传的大数据上进行测试。我还没有最后确定一个主意。但我相信它会涉及到一些数据处理,mapreduce设计模式和可能的图形算法,hive和piglatin。如果有人能给我一些建议,我将不胜感激。我脑子里想的很少。
最后,我必须对一些大数据集进行研究,得到一些信息并得出一些结论。为此,我以前使用weka进行数据挖掘(使用树)。
但我不确定这是否是我现在唯一可以使用的东西(使用weka)。有没有其他方法可以让我在大数据上工作并在大数据集上得出结论?
还有,我怎样才能在这里面包含图形呢?
基本上我想做一个研究项目,但我不知道我到底应该做什么,它应该是什么样的?有什么想法吗?提示性链接/想法?知识共享?

m1m5dgzv

m1m5dgzv1#

我建议您检查apachemahout,它是一个可伸缩的机器学习和数据挖掘框架,应该与hadoop很好地集成。
hive为您提供了类似sql的语言来查询大数据,本质上它将您的高级查询转换为mapreduce作业并在数据集群上运行。
另一个建议是考虑用r来做数据处理算法,它是一个统计软件(类似于matlab),我建议用r revolution来代替标准的r环境,r revolution是一个开发r的环境,但是有很多强大的工具用于大数据和聚类。
编辑:如果你是一个学生,r革命有一个免费的学术版。
edit:第三个建议是查看gridgain,它是java中的另一个map/reduce实现,在集群上运行起来相对容易。

ny6fqffe

ny6fqffe2#

由于您已经在使用mapredude和hadoop,您可以使用mahout从数据中提取一些知识,也可以从这本非常好的书中获得一些想法:
http://infolab.stanford.edu/~ullman/mmds.html
这本书提供了想法,以挖掘社会网络图,并与图在其他一些方式也。
希望有帮助!

相关问题