如何使用hadoop解决以下用例？

eh57zj3b 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(337)

Migrating the data from Legacy database [~50 TB] to New Database.
Migrating data from staging database[ 5GB per 1 hr] to New Database.

Before storing into new database we are doing data analytic(validating, removing unwanted data and , storing only valid data)

请提供使用hadoop生态系统的架构。

hadoop Hive mapreduce sqoop apache-pig

来源：https://stackoverflow.com/questions/37018255/how-to-solve-the-below-usecase-using-hadoop

1条答案

按热度按时间

yhived7q1#

我想您可以使用cloudera管理器和cdh（hadoop）。
etl:sqoop2sql:hive&impala数据挖掘：spark。
sqoop可以轻松地将数据从遗留数据库加载到hadoop（简单命令）

Sqoop import --connect [jdbc:oracle:thin:@//ip:port/servicename] --username xxx --password xxx --table xxx --hive-table

之后，您可以使用hue（编写sql、元数据、工作流的web界面）来查询数据。
impala是cloudera的mpp数据库。
它很容易扩展。
首先，为了概念验证，您可以从4个节点启动群集：
主节点（*1）：64g内存从节点（*3）：32g内存
将少量数据加载到数据池中。完成后，您可以扩展并向数据湖中添加更多节点。

赞(0）回复(0）举报 2021-05-30

我来回答

如何使用hadoop解决以下用例？

1条答案

相关问题

热门标签

最新问答