如何使用hadoop解决以下用例?

eh57zj3b  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(337)
Migrating the data from Legacy database [~50 TB] to New Database.
Migrating data from staging database[ 5GB per 1 hr] to New Database.

Before storing into new database we are doing data analytic(validating, removing unwanted data and , storing only valid data)

请提供使用hadoop生态系统的架构。

yhived7q

yhived7q1#

我想您可以使用cloudera管理器和cdh(hadoop)。
etl:sqoop2sql:hive&impala数据挖掘:spark。
sqoop可以轻松地将数据从遗留数据库加载到hadoop(简单命令)

Sqoop import --connect [jdbc:oracle:thin:@//ip:port/servicename] --username xxx --password xxx --table xxx --hive-table

之后,您可以使用hue(编写sql、元数据、工作流的web界面)来查询数据。
impala是cloudera的mpp数据库。
它很容易扩展。
首先,为了概念验证,您可以从4个节点启动群集:
主节点(*1):64g内存从节点(*3):32g内存
将少量数据加载到数据池中。完成后,您可以扩展并向数据湖中添加更多节点。

相关问题