hadoop和teradata有什么区别

x33g5p2x  于 2021-06-04  发布在  Hadoop
关注(0)|答案(4)|浏览(882)

我碰过一个teradata。我从来没有接触过hadoop,但是从昨天开始,我就在做一些关于hadoop的研究。通过对两者的描述,它们似乎是可以互换的,但在一些论文中,它们的用途是不同的。但我发现的都是模糊的。我很困惑。
有人对他们两个都有经验吗?他们之间有什么严重的区别?
简单示例:我想构建etl,它将转换数十亿行原始数据并将它们组织为dwh。然后对它们进行资源成本分析。为什么使用td?为什么是hadoop?或者为什么不呢?

wn9m85ua

wn9m85ua1#

我已经被问了好几次这个问题,我通常给出的答案是一个汽车类比(这是相当愚蠢的,因为我不是一个汽车人-但它似乎工作)
teradata是面向大众的car/dbms—它可靠、成熟、运行良好,并且在您需要时随时可用。很难(与hadoop相比)定制并向基础产品添加功能。
hadoop是一款专为爱好者设计的car/dbms,它既不可靠,也不成熟,只要你关注它,它就能工作得很好。与teradata相比,定制和向基础产品添加功能是很容易的。
换言之,teradata是一个可靠的工作平台,您可以将任务关键型流程(运营报告、企业报告、决策支持等)放在这里。hadoop是一个可以做很多这类事情的地方,但是如果你某天早上来发现你的监管报告因为有人应用了补丁或者你突然遇到了“太多小文件”的问题而无法生成,不要感到惊讶。
回到这个类比,如果你不想太技术化,制造商的产品(dbms和/或汽车)适合你开箱即用,teradata是一个不错的选择。另一方面,如果你喜欢修补引擎盖下,更换化油器(或其他什么),调整齿轮比,调整燃料空气混合取决于你是国家或城市驾驶,螺栓涡轮增压器和/或你的家人抱怨你花了多长时间在车库在周末-hadoop是你的地方。
当然,如果不是所有组织都需要的话,大多数组织都需要。我希望这有帮助:-)

ssm49v7z

ssm49v7z2#

hadoop,带扩展的hadoop,rdbms特性/属性比较

我不是这方面的Maven,但是在coursera.com课程《数据科学导论》中,有一个讲座,题目是:比较mapreduce和数据库,还有一个关于平行数据库的讲座,在课程的mapreduce部分。
下面是这些讲座中关于mapreduce与rdbms(不一定是并行RDMB)比较的总结。要记住的一点是,如果您包括hadoop的扩展(如pig、hive等),那么比较就不同了。我将放入()mapreduce扩展,其中添加了一些功能/属性。
rdbms具有但不是本机mapreduce的某些功能/属性:
去极化查询语言-(pig,hive)
架构(hive、pig、dyradlinq、hadapt)
逻辑数据独立性
索引(hbase)
代数优化(pig、dryad、hive)
缓存/物化视图
acid/交易
mapreduce(相对于常规rdbms,不一定是并行rdmbs)
高可扩展性
容错
“一人部署”

ezykj2lf

ezykj2lf3#

我认为这篇题为“mapreduce和并行dbms:朋友还是敌人”的文章很好地描述了每种技术最有效的情况。简而言之,hadoop非常适合存储非结构化数据和运行并行转换来“清理”传入数据,而dbms擅长快速执行复杂查询。

mrphzbgm

mrphzbgm4#

首先,vanilla apache hadoop是100%开源的。但如果你需要商业支持和咨询,有像cloudera,mapr,hortonworks等公司。
hadoop得到了一个不断增长的社区的支持,该社区在一致的基础上修复bug并进行改进。hadoop存储模型hdfs基于google的gfs体系结构,该体系结构被证明可以处理大量数据。此外,hadoop分析模型map reduce基于google的map reduce模型。
hadoop被facebook、yahoo、twitter、ebay等科技巨头用来实时和被动地存储和分析大量数据。
对于etl系统的问题,请阅读这些幻灯片。
好了,为什么是hadoop?
开源
针对大量数据的经验证的存储和分析模型
安装和运行的最低硬件要求。
好吧,为什么是td?
商业支持

相关问题