我试图找出数据仓库、集群数据处理和查询数据仓库的工具/基础设施之间的区别(在工具/服务/程序之间)
假设我有下面的设置来为某个用例执行一些数据处理
Hadoop Cluster for Distributed Data processing
Hive for providing infrastructure and Functions for querying data from a data warehouse
My data sitting in an RDBMS or a NoSQL database
在上面的例子中,数据仓库到底是什么?我天真的大脑认为它是rdbms或nosql数据库,在上面的上下文中是数据仓库。但根据定义,数据仓库不是用于报告和数据分析的数据库吗(定义无耻地从维基百科盗取)。那么,我可以把传统的rdbms/nosql数据库称为数据仓库吗?谢谢。
1条答案
按热度按时间v7pvogib1#
不能将每个关系数据库系统都称为数据仓库,因为数据仓库的主要功能之一是聚合来自多个数据库(具有不同模式)的数据。它通常是通过一个“星型模式”来实现的,允许组合多个维度和多个粒度。
因为nosql数据库系统(基于图或基于map-reduce)是无模式的,所以它们确实可以存储来自不同模式的数据。此外,map reduce可用于聚合具有不同粒度的数据(例如,聚合每日数据以将其与每月数据进行比较)。