大数据-数据来自哪里?

bn31dyow  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(310)

**结束了。**这个问题离题了。它目前不接受答案。
**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。

7年前关门了。
改进这个问题
这似乎是一个空洞的问题,但随着大数据的喧嚣,我很好奇大数据中使用的典型数据集是如何来源的?twitter关键字似乎是一个常见的来源-但是被分析的巨大twitter提要文件的来源是什么?我看到一个例子,其中有一个像奥巴马和罗姆尼的选举相关词的分析..有人查询推特api和有效下载数兆字节的推特?twitter甚至希望人们对他们的服务器进行如此猛烈的攻击吗?或者这些数据已经被做分析的公司“拥有”了。这听起来可能有点奇怪,但我看到的大多数文章都不清楚这些基本的物理步骤。任何链接到好的文章或教程,解决这些基本问题将不胜感激

azpvetkf

azpvetkf1#

以下是获取大数据来源的一些想法:
正如你所指出的,twitter是一个获取数据的好地方,有很多有用的分析要做。如果你正在学习关于数据科学的在线课程,其中一个作业实际上是如何从twitter获取实时数据进行分析,因此我建议你看看这个作业,因为获取实时twitter数据的过程非常详细。您可以让实时流运行几天,而且它运行的时间越长,可能会生成价值千兆字节的数据。
如果你有一个网站,你可以得到网络服务器日志。如果是一个小网站,可能不会有太多的流量,但对于流量很大的大型网站来说,这是一个巨大的数据源。想想如果你有stackoverflow web服务器日志你能做些什么。。。
海洋数据,你可以在marinexplore找到,他们有一些巨大的数据集,你可以下载和分析自己,如果你想分析海洋数据。
网络爬网数据,例如搜索引擎使用的数据。您可以在CommonCrawl上看到一些来自WebCrawl的开放数据,它已经在AmazonS3上了,可以让您的hadoop作业在上面运行了!你也可以在这里从维基百科获取数据。
基因组数据现在可以在一个非常大的范围内获得,你可以通过ftp找到1000个基因组项目的基因组数据。
...
更一般地说,我建议你看看amazonaws的数据集,如果你不仅仅是在twitter上,而是在更一般的背景下看大数据的话,它有很多关于不同主题的大数据集。

toiithl6

toiithl62#

大多数企业从twitter认证的数据合作伙伴(如gnip)获取社交数据。
注:我为gnip工作。

相关问题