hadoop会取代数据仓库吗?

mfuanj7w  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(321)

我听说hadoop即将取代数据仓库。所以我想知道是否有实际的成功/失败率的案例研究,或者这里的一些开发人员是否在一个项目上做过这样的工作,或者全部或者部分?
随着“大数据”的出现,它似乎有很多炒作,我试图从虚构中找出事实。
我们有一个巨大的数据库转换在工作中,我想这可能是一个替代的解决方案。

roqulrg3

roqulrg31#

好吧,大数据初创公司有很多成功的案例,特别是在adtech,虽然这并不是“取代”旧的昂贵的专有方式,但他们只是第一次使用hadoop。我想这就是创业的好处——没有遗留系统。从技术和数据科学的Angular 来看,广告虽然从外表上看有些枯燥,但却非常有趣。有大量的数据和挑战是更有效地细分用户和出价的广告空间。这通常意味着需要一些机器学习。
但不仅仅是adtech,hadoop还被用于银行欺诈检测和其他各种事务分析。
因此,关于为什么会发生这种情况,我将尝试总结一下我的主要经验,即使用spark和scala的hdfs与使用sas、r和teradata的传统方法的比较:
hdfs是一种非常有效的方法,可以以一种易于访问的分布式方式存储大量数据,而不需要首先构造数据的开销。
hdfs不需要定制硬件,它可以在商品硬件上工作,因此每tb的成本更低。
hdfs和hadoop生态系统与动态和灵活的云架构齐头并进。googlecloud和amazonaws拥有丰富而廉价的功能,完全不需要内部dcs。不需要购买20台功能强大的服务器和100 tb的存储空间,然后发现这还不够,或者太多,或者每天只需要1小时。使用云服务建立集群变得越来越容易,甚至有一些脚本可以让那些只有少量sysadm/devops经验的人实现这一点。
hadoop和spark,特别是当与scala这样的高级静态类型语言(但java8也可以)一起使用时,意味着数据科学家现在可以用r、python和sas这样的脚本语言做他们永远做不到的事情。首先,他们可以用一种语言,在一个虚拟环境中,将建模代码与其他生产系统连接起来。想想所有用scala编写的高速工具;kafka、akka、spray、spark、sparkstreaming、graphx等,以及java中的hdfs、hbase、cassandra—现在所有这些工具都具有高度的互操作性。这意味着有史以来第一次,数据分析师能够可靠地自动化分析并构建稳定的产品。它们具有所需的高级功能,但具有静态类型、fp和单元测试的可预测性和可靠性。尝试用python构建一个大型复杂的并发系统。尝试在r或sas中编写单元测试。试着编译你的代码,看着测试通过,然后总结“嘿,它工作了!让我们用一种动态类型化的语言发布它。
这四点加在一起意味着a:存储数据现在便宜多了,b:处理数据现在便宜多了,c:人力资源成本便宜多了,因为现在你不需要几个团队分散到分析师,建模师,工程师,开发人员,你可以把这些技能混合在一起,制造出最终需要雇用更少人的混合动力车。
事情不会一夜之间改变,目前劳动力市场主要缺乏两个群体;优秀的大数据devops和scala工程师/开发人员,他们的费率清楚地反映了这一点。不幸的是,尽管需求量很大,但供应量却很低。尽管我仍然猜测hadoop的仓储成本要便宜得多,但寻找人才可能是一个巨大的成本,这限制了转型的步伐。

相关问题