通常,大数据环境下的数据仓库是在基于hadoop的系统上管理和实现的,比如apachehive(对吧?)。另一方面,我的问题涉及方法论过程。大数据如何影响数据仓库的设计过程?流程是否相似或必须考虑新任务?
vwkv1x7d1#
hadoop在体系结构上与mpp数据仓库类似,但有一些显著的区别。处理器不是由并行体系结构严格定义的,而是在hadoop集群中松散耦合的,每个处理器可以在不同的数据源上工作。数据操作引擎、数据目录和存储引擎可以彼此独立地工作,hadoop可以作为一个收集点。同样重要的是,hadoop可以轻松地容纳结构化和非结构化数据。这使得它成为迭代查询的理想环境。业务用户不必根据模式定义的狭义结构来定义分析输出,而是可以通过实验来找到对他们最重要的查询。然后可以提取相关数据并将其加载到数据仓库中进行快速查询。hadoop生态系统的出发点是希望从不同的系统中收集尽可能多的有趣数据,但它的方法是完全更好的。使用这种方法,您可以将所有感兴趣的数据转储到一个大数据存储(通常是hdfs–hadoop分布式文件系统)中。这通常发生在云存储中——云存储有助于完成任务,因为它既便宜又灵活,而且使数据接近廉价的云计算能力。如果需要,您仍然可以使用hive等工具进行etl和创建数据仓库,但更重要的是,您仍然拥有所有可用的原始数据,因此您还可以定义新问题,并根据需要对所有原始历史数据进行复杂的分析。hadoop工具集允许极大的灵活性和分析能力,因为它通过在大量廉价商品机器上拆分任务来进行大量计算,让您执行比在传统仓库中更强大、更投机和更快速的分析。
1条答案
按热度按时间vwkv1x7d1#
hadoop在体系结构上与mpp数据仓库类似,但有一些显著的区别。处理器不是由并行体系结构严格定义的,而是在hadoop集群中松散耦合的,每个处理器可以在不同的数据源上工作。
数据操作引擎、数据目录和存储引擎可以彼此独立地工作,hadoop可以作为一个收集点。同样重要的是,hadoop可以轻松地容纳结构化和非结构化数据。这使得它成为迭代查询的理想环境。业务用户不必根据模式定义的狭义结构来定义分析输出,而是可以通过实验来找到对他们最重要的查询。然后可以提取相关数据并将其加载到数据仓库中进行快速查询。
hadoop生态系统的出发点是希望从不同的系统中收集尽可能多的有趣数据,但它的方法是完全更好的。使用这种方法,您可以将所有感兴趣的数据转储到一个大数据存储(通常是hdfs–hadoop分布式文件系统)中。这通常发生在云存储中——云存储有助于完成任务,因为它既便宜又灵活,而且使数据接近廉价的云计算能力。如果需要,您仍然可以使用hive等工具进行etl和创建数据仓库,但更重要的是,您仍然拥有所有可用的原始数据,因此您还可以定义新问题,并根据需要对所有原始历史数据进行复杂的分析。hadoop工具集允许极大的灵活性和分析能力,因为它通过在大量廉价商品机器上拆分任务来进行大量计算,让您执行比在传统仓库中更强大、更投机和更快速的分析。