用于hadoop mapreduce的小型数据集

mzsu5hc0  于 2021-06-03  发布在  Hadoop
关注(0)|答案(3)|浏览(402)

我正在努力熟悉hadoopmapreduce。在学习了这些概念的理论知识之后,我想对它们进行实践。
但是,我找不到这种技术的小数据集(最多3 gb)。在哪里可以找到数据集来进行练习?
或者,我如何练习hadoop mapreduce?换句话说,有没有提供锻炼的教程或网站?

p8ekf7hl

p8ekf7hl1#

可供下载和使用的可公开访问的数据集。下面是几个例子。
http://www.netflixprize.com/index-作为竞赛的一部分,它发布了一组用户评分数据,以挑战人们开发更好的推荐算法。未压缩的数据为2GB+。它包含来自480k用户对17k电影的100m+电影收视率。
http://aws.amazon.com/publicdatasets/-例如,其中一个生物数据集是一个大约550gb的带注解的人类基因组数据。在经济学中你可以找到数据集,比如2000年美国人口普查(大约200GB)。
http://boston.lti.cs.cmu.edu/data/clueweb09/-卡内基梅隆大学语言技术研究所发布了clueweb09数据集,以帮助大规模的网络研究。这是10种语言的10亿个网页的爬行。未压缩的数据集占用25 tb。

hyrbngr7

hyrbngr72#

或者,我如何练习hadoop mapreduce?换句话说,有没有提供锻炼的教程或网站?
下面是一些玩具问题开始。并用mapreduce对数据密集型文本处理进行了验证,得到了在mapreduce中实现的页面排名、连接、索引等算法的伪代码。
以下是随时间收集的一些公共数据集。你可能得挖一些小的。
http://wiki.gephi.org/index.php/datasets
为hadoop下载大数据
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu/data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https://docs.google.com/document/pub?id=1cnbmpiuvcu8gktmvtqstibtzco_ctlmvpxxbrs0hhcg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/

7gcisfzg

7gcisfzg3#

为什么不自己创建一些数据集呢?
一件非常简单的事情就是用数百万个随机数填充一个文件,然后使用hadoop查找重复数、三元数、素数、因子中有重复数的数等等。
当然,这并不像寻找普通的facebook好友那么有趣,但只要稍微练习一下hadoop就足够了。

相关问题