一个用于研究的大型开源数据集

rlcwz9us  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(349)

请帮助我找到一个数据挖掘研究项目的海量数据集。
如果你向我推荐任何搜索引擎数据(谷歌/雅虎用户搜索历史)或维基百科的用户浏览统计数据或twitter的用户tweet数据集,那将非常有帮助。
我正在开发hadoop框架和数据库,因此我希望每个表中有数百万条记录。

j5fpnvbx

j5fpnvbx1#

这里是百万首歌曲的数据集。

http://labrosa.ee.columbia.edu/millionsong/

如果你想提取tweets,我建议使用twitter的流式api。
https://dev.twitter.com/streaming/overview

相关问题