gcp hadoop数据仓库？

c2e8gylq 于 2021-06-01 发布在 Hadoop

关注(0)|答案(2)|浏览(549)

我知道googlebigquery是一个数据仓库，但是dataproc，big table，pub/sub是否被认为是一个数据仓库？这会使hadoop成为一个数据仓库吗？

hadoop google-cloud-dataproc google-cloud-datastore

来源：https://stackoverflow.com/questions/52472956/gcp-hadoop-data-warehouse

2条答案

按热度按时间

bpzcxfmw1#

“数据仓库”主要是一个信息系统概念，它描述了一个集中的、可信的（如公司/业务）数据源。
来自wikipedia：“dws是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方，用于为整个企业的员工创建分析报告。”
关于你的问题，一个简单的答案是：
googlebigquery是一个查询执行（和/或数据处理）引擎，您可以在不同类型的数据存储上使用它。
googlebigtable是一种数据库服务，可用于实现数据仓库或任何其他数据存储。
googledataproc是一个数据处理服务，由mapreduce（或者spark，如果你认为它是hadoop的一部分）等常用hadoop处理组件组成。
hadoop是一个用于数据存储和处理的框架/平台，由不同的组件组成（例如，通过hdfs进行数据存储，通过mapreduce进行数据处理）。您可以使用hadoop平台来构建数据仓库，例如使用mapreduce来处理数据并将其加载到orc文件中，这些文件将存储在hdfs中，并且可以由hive查询。但只有当它是“数据真相的集中、单一版本”时，才应该称之为数据仓库

赞(0）回复(0）举报 2021-06-02

6uxekuva2#

dataproc可以作为hadoop集群的一个数据湖，但也可以作为一个数据仓库，因为一些工具可以查询它的信息。
bigtable存储多达PB的数据，但是，它是为需要非常高的吞吐量和可伸缩性的应用程序而设计的。然而，由于其高存储容量和流处理/分析，它也可以被视为一个数据仓库。
pub/sub它不是一个数据仓库，因为它是一个发布-订阅服务。

赞(0）回复(0）举报 2021-06-02

我来回答

gcp hadoop数据仓库？

2条答案

相关问题

热门标签

最新问答