大数据和数据挖掘有什么区别?

holgip5t  于 2021-06-04  发布在  Hadoop
关注(0)|答案(3)|浏览(429)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。

四年前关门了。
改进这个问题
正如wikmedia所说
数据挖掘过程的总体目标是从数据集中提取信息,并将其转换为可理解的结构以供进一步使用
这与大数据有什么关系?如果我说hadoop是以并行方式进行数据挖掘的,对吗?

syqv5f0l

syqv5f0l1#

这个答案确实是为了给anony mousse的优秀答案增加一些特殊性。
关于大数据到底是什么,有很多争论。anony mousse在这里提出了许多关于过度使用分析、大数据和数据挖掘等术语的问题,但是

mzillmmw

mzillmmw2#

大数据就是一切

大数据是一个营销术语,而不是技术术语。如今一切都是大数据。我的U盘现在是“个人云”,我的硬盘是大数据。说真的。这是一个完全不具体的术语,主要是由各种非常乐观的公司的市场营销部门所能销售的东西来定义的——而大公司的首席执行官所能购买的东西,目的是让奇迹发生。更新:到目前为止,数据科学也是如此。只是营销而已。

数据挖掘是古老的大数据

实际上,数据挖掘也被过度使用了。。。它可能意味着
收集数据(想想国家安全局)
存储数据
机器学习/ai(早于术语数据挖掘)
非ml数据挖掘(如“知识发现”中,数据挖掘一词实际上是被创造出来的;但重点是新知识,而不是现有知识的学习)
业务规则和分析
可视化
任何涉及数据的东西,你都想用一卡车的钱来卖
只是市场营销需要一个新的术语。”商业智能“,”商业分析“。。。他们还在继续卖同样的东西,现在只是改名为“大数据”。

大多数“大”数据挖掘并不是很大

由于大多数方法——至少那些给出有趣结果的方法——只是不可伸缩,大多数“挖掘”出来的数据实际上并不大。很明显,它比10年前大了很多,但没有EB那么大。kdnuggets的一项调查显示,平均1-10gb是“分析的最大数据集”。任何数据管理手段都不是大数据;它只有用复杂的方法才能分析出来(我不是在说琐碎的算法(比如k-均值)。

大多数“大数据”不是数据挖掘

现在“大数据”是真的。谷歌有大数据,欧洲核子研究中心也有大数据。大多数人可能不会。当你需要1000台电脑来存储数据时,数据就开始变得庞大。
像hadoop这样的大数据技术也是真实存在的。它们的使用并不总是明智的(不要费心去运行少于100个节点的hadoop集群——因为这一点,您可能可以从精心选择的非集群机器上获得更好的性能),但是人们当然会编写这样的软件。
但目前所做的大部分工作并不是数据挖掘。它是提取、转换、加载(etl),因此它正在取代数据仓库。与使用具有结构、索引和加速查询的数据库不同,数据只是转储到hadoop中,当您知道要做什么时,您可以重新读取所有数据,提取真正需要的信息,转换数据,并将其加载到excel电子表格中。因为经过选择、提取和转化,通常它不再是“大”了。

数据质量受大小的影响

大数据的许多营销承诺将无法兑现。twitter为大多数公司提供的见解远不如广告上所说的那么多(除非你是一个小小的摇滚明星);twitter的用户群也有很大的偏见。纠正这种偏见是困难的,需要经验丰富的统计学家。
数据的偏差是一个问题-如果你只是从互联网或应用程序中随机收集一些数据,它通常不具有代表性;尤其是潜在用户。相反,如果你不设法消除这些影响,你将过度适应现有的重度用户。
另一个大问题就是噪音。你有垃圾邮件机器人,但也有其他工具(想想推特的“趋势主题”,导致加强“趋势”),使数据噪音比其他来源。清理这些数据很困难,不是技术问题,而是统计领域的专业知识。例如,谷歌流感趋势被反复发现是相当不准确的。它在早些年的一些时候起了作用(可能是因为过度装配?),但现在已经不是很好的质量了。
不幸的是,很多大数据用户对此关注太少;这可能是大多数大数据项目失败的众多原因之一(其他原因是管理不善、期望过高和不切实际、缺乏公司文化和技能型人才)。

hadoop!=数据挖掘

现在是你问题的第二部分。hadoop不做数据挖掘。hadoop管理数据存储(通过hdfs,一种非常原始的分布式数据库)并安排计算任务,允许您在存储数据的同一台机器上运行计算。它不做任何复杂的分析。
有一些工具试图将数据挖掘引入hadoop。特别是,apachemahout可以称为apache在hadoop上进行数据挖掘的官方尝试。除了它主要是一个机器学习工具(机器学习!=数据挖掘;数据挖掘有时使用机器学习的方法。mahout的某些部分(如集群)还远远不够先进。问题是hadoop很适合处理线性问题,但大多数数据挖掘都不是线性的。非线性算法不仅仅是扩展到大数据;你需要小心地开发线性时间近似,并承受精度上的损失——损失必须小于你仅仅处理较小数据所造成的损失。
这种权衡问题的一个很好的例子是k-means。k-均值实际上是一个(大部分)线性问题;所以它可以在hadoop上运行。一次迭代是线性的,如果你有一个好的实现,它可以很好地扩展到大数据。然而,直到收敛的迭代次数也随着数据集的大小而增加,因此它不是真正的线性的。然而,由于这是一种寻找“平均数”的统计方法,结果实际上并没有随着数据集的大小而有多大改善。因此,虽然你可以在大数据上运行k-means,但它并没有太大意义——你可以只对你的数据进行采样,运行一个高效的单节点版本的k-means,结果也会一样好。因为额外的数据只是给了你一些额外的数字,你不需要精确的数值。
由于这适用于相当多的问题,hadoop上的实际数据挖掘似乎并没有启动。每个人都想这么做,很多公司都卖这种东西。但它并没有比非大版本好多少。但只要客户愿意购买,公司就会出售这种功能。只要你能得到资助,研究人员就会就此写论文。不管是否有效。这就是生活。
有一些情况下,这些事情的工作。谷歌搜索就是一个例子,欧洲核子研究中心。但是图像识别(但不使用hadoop,gpu集群似乎是实现这一目标的途径)最近也从数据量的增加中受益。但在任何一种情况下,你都有相当干净的数据。谷歌索引一切;欧洲核子研究中心丢弃任何不感兴趣的数据,只分析有趣的测量-没有垃圾邮件发送者将他们的垃圾邮件输入欧洲核子研究中心。。。而在图像分析中,你的训练对象是预选的相关图像,而不是网络摄像头或来自互联网的随机图像(如果是这样,你就把它们当作随机图像,而不是代表性数据)。

snz8szmq

snz8szmq3#

大数据和hadoop有什么区别?
答:大数据和开源软件hadoop的区别是截然不同的,也是根本的。前者是一种资产,通常是一种复杂而含糊不清的资产,而后者是一个程序,它实现了一系列处理该资产的目标和目的。
大数据就是企业和其他各方为了服务于特定目标和运营而整合起来的大型数据集。大数据可以包含多种不同格式的数据。例如,企业可能会投入大量的工作来收集数以千计的数据,这些数据涉及货币格式的购买、客户标识符(如姓名或社会保险号)或产品信息(如型号、销售编号或库存编号)。所有这些,或任何其他大量信息,都可以称为大数据。作为一个规则,它是原始的和未排序的,直到它通过各种各样的工具和处理程序。
hadoop是设计用来处理大数据的工具之一。hadoop和其他软件产品通过特定的专有算法和方法来解释或解析大数据搜索的结果。hadoop是apache许可下的一个开源程序,由全球用户社区维护。它包括各种主要组件,包括mapreduce函数集和hadoop分布式文件系统(hdfs)。
mapreduce背后的思想是hadoop可以首先Map一个大的数据集,然后针对特定的结果对该内容执行缩减。reduce函数可以看作是一种原始数据的过滤器。然后,hdfs系统通过网络分发数据或根据需要进行迁移。
数据库管理员、开发人员和其他人可以使用hadoop的各种特性以多种方式处理大数据。例如,hadoop可以用于执行数据策略,比如使用非统一数据进行集群和目标定位,或者使用不适合传统表的数据或对简单查询的响应不好的数据。
见刊登在http://www.shareideaonline.com/cs/what-is-the-difference-between-big-data-and-hadoop/
谢谢,安库什

相关问题