我听说了一个新名词“数据湖”。我在谷歌上搜索到了
数据湖是一个大型的存储库和处理引擎。数据湖为“任何类型的数据提供了海量存储、巨大的处理能力以及处理几乎无限并发任务或作业的能力”
术语datalake通常与面向hadoop的对象存储相关联。在这种情况下,一个组织的数据首先被加载到hadoop平台,然后业务分析和数据挖掘工具被应用到hadoop的商品计算机集群节点上的数据。
hadoop也做了同样的事情。我们有用于存储的hdfs和用于计算的mapreduce。我对hadoop和datalake有点困惑。两者的区别是什么。如果它们是相同的,这就是为什么这个术语出现。或者如何定义数据湖。
6条答案
按热度按时间mu0hgdu01#
数据湖是一种在系统中存储数据的方法,它有助于对各种模式和结构形式(通常是对象blob或文件)中的数据进行排序。
数据湖的概念与apachehadoop及其开源项目生态系统紧密相连。所有关于数据湖的讨论都很快引出了如何使用apachehadoop生态系统构建数据湖的描述。它之所以流行,是因为它提供了一种经济高效、技术可行的方式来应对大数据挑战。组织正在发现数据湖,将其作为现有数据体系结构的一种演变。
下面的白皮书将作为使用hadoop构建数据湖的一个示例。
zvokhttg2#
我´我觉得这个问题太像了。
“oracle与数据库”。
数据湖是一种在系统或存储库中存储数据的方法。hadoop引用了hadoop技术,hadoop是一个用于存储数据的开源软件框架。因此数据湖的一个例子是hadoop中使用的分布式文件系统。
oiopk7p53#
数据湖是一个抽象的“概念”。hadoop是一种特定的技术/软件。可以使用hadoop或其他工具实现数据湖。
eanckbw94#
您已经将这个概念(数据湖)与一个可以用来实现它们的框架(hadoop)混淆了,但是这是可以理解的,因为这些术语彼此之间有着密切的联系。
hadoop通常与数据湖相关联,因为第一批数据湖中的一些是使用本地hadoop构建的。然而,数据湖只是一种架构设计模式——数据湖可以在hadoop之外使用任何类型的可伸缩对象存储(例如azure数据湖或aws s3)构建。
这个站点很好地概述了数据湖,包括讨论hadoop和其他实现的数据湖的历史。下面是另一篇文章,讨论了这些术语是如何联系在一起的。
stszievb5#
想到数据湖最简单的方法就是把这个大容器想象成一个真正的湖,里面有河流,你永远不知道河流从哪里来(或者河流的“类型”)。
datalake能够存储大量不同类型的数据(结构化数据、非结构化数据、日志文件、实时数据、图像等),并将这些数据混合在一起,将许多不同的数据类型关联起来。这里的关键是,我们正在从传统方式转向现代工具(如hadoop、cassandra、nosqldb等)。
有一大堆数据正在被创建,如果我们能够分析它,我们可能会从中获得一些价值。我们可以使用云来获取这些数据,将它们聚集在一个商店中,并对其进行分析。在azure中,我们有azure数据湖存储。我们可以获取所有这些数据,然后将其存储在azure数据湖存储中。azuredatalakestore就像一个基于云的文件服务或文件系统,其大小几乎是无限的。
我们可以在商店里的数据上运行服务。因此,您可以在hdinsight集群中使用hadoop或spark,也可以使用azure数据湖分析服务,它是对azure数据湖存储的补充。该服务将允许您运行作业,有效地查询存储在azuredatalake存储区中的数据并生成输出结果。
azure数据湖存储是我们可以存储所有我们想要分析的数据的地方。azuredatalakeanalytics是一种服务,我们可以在其中运行查询数据的作业,以生成某种分析输出。hadoop是一种特定的技术/(开源分布式数据处理集群技术)。可以使用hadoop或其他工具实现数据湖。
ewm0tg9j6#
为了处理一个数据湖,除了我们的卷,我们可以使用任何支持不同类型数据的技术。在这个上下文中,apachehadoop有这个特性,所以我们可以使用hadoop来实现数据湖。但是hadoop绝不意味着一个数据湖,因为数据湖是一个包含大量实现的大概念。在开发术语中,我们说“DataLake是一个包含许多实现的规范,如hadoop、MicrosoftAzure、aws等”