mapreduce数据挖掘项目

xxls0lw8 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(387)

我计划做一个涉及hadoop库的mapreduce项目，并在aws上传的大数据上进行测试。我还没有最后确定一个主意。但我相信它会涉及到一些数据处理，mapreduce设计模式和可能的图形算法，hive和piglatin。如果有人能给我一些建议，我将不胜感激。我脑子里想的很少。
最后，我必须对一些大数据集进行研究，得到一些信息并得出一些结论。为此，我以前使用weka进行数据挖掘（使用树）。
但我不确定这是否是我现在唯一可以使用的东西（使用weka）。有没有其他方法可以让我在大数据上工作并在大数据集上得出结论？
还有，我怎样才能在这里面包含图形呢？
基本上我想做一个研究项目，但我不知道我到底应该做什么，它应该是什么样的？有什么想法吗？提示性链接/想法？知识共享？

hadoop mapreduce parallel-processing data-mining

来源：https://stackoverflow.com/questions/13357136/mapreduce-project-with-data-mining

2条答案

按热度按时间

m1m5dgzv1#

我建议您检查apachemahout，它是一个可伸缩的机器学习和数据挖掘框架，应该与hadoop很好地集成。
hive为您提供了类似sql的语言来查询大数据，本质上它将您的高级查询转换为mapreduce作业并在数据集群上运行。
另一个建议是考虑用r来做数据处理算法，它是一个统计软件（类似于matlab），我建议用r revolution来代替标准的r环境，r revolution是一个开发r的环境，但是有很多强大的工具用于大数据和聚类。
编辑：如果你是一个学生，r革命有一个免费的学术版。
edit：第三个建议是查看gridgain，它是java中的另一个map/reduce实现，在集群上运行起来相对容易。

赞(0）回复(0）举报 2021-06-04

ny6fqffe2#

由于您已经在使用mapredude和hadoop，您可以使用mahout从数据中提取一些知识，也可以从这本非常好的书中获得一些想法：
http://infolab.stanford.edu/~ullman/mmds.html
这本书提供了想法，以挖掘社会网络图，并与图在其他一些方式也。
希望有帮助！

赞(0）回复(0）举报 2021-06-04

我来回答

mapreduce数据挖掘项目

2条答案

相关问题

热门标签

最新问答