在这个用例中什么是数据仓库

o3imoua4  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(423)

我试图找出数据仓库、集群数据处理和查询数据仓库的工具/基础设施之间的区别(在工具/服务/程序之间)
假设我有下面的设置来为某个用例执行一些数据处理

Hadoop Cluster for Distributed Data processing
Hive for providing infrastructure and Functions for querying data from a data warehouse
My data sitting in an RDBMS or a NoSQL database

在上面的例子中,数据仓库到底是什么?我天真的大脑认为它是rdbms或nosql数据库,在上面的上下文中是数据仓库。但根据定义,数据仓库不是用于报告和数据分析的数据库吗(定义无耻地从维基百科盗取)。那么,我可以把传统的rdbms/nosql数据库称为数据仓库吗?谢谢。

v7pvogib

v7pvogib1#

不能将每个关系数据库系统都称为数据仓库,因为数据仓库的主要功能之一是聚合来自多个数据库(具有不同模式)的数据。它通常是通过一个“星型模式”来实现的,允许组合多个维度和多个粒度。
因为nosql数据库系统(基于图或基于map-reduce)是无模式的,所以它们确实可以存储来自不同模式的数据。此外,map reduce可用于聚合具有不同粒度的数据(例如,聚合每日数据以将其与每月数据进行比较)。

相关问题