关闭。这个问题是基于意见的。它目前不接受答案。**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。
三年前关门了。改进这个问题现有进程-原始结构数据被复制到红移的暂存层中。然后利用informatica、telend等etl工具对数据集市/数据仓库的事实表和维度表进行增量加载。所有连接都发生在数据库层(etl将查询推送到db中)spark能否取代etl工具,进行同样的处理并将数据加载到redshift中?这种架构的优点和缺点是什么?
u91tlkcl1#
我们使用etl来做这些事情:1、 将数据传输到数据库;2、 从数据库中获取数据并将其移动到其他空间。3、 安排作业何时运行。4、 检查作业相关性hadoopecosphere总是使用关系数据库来恢复数据,因此etl不会被替代,因为它们做不同的事情。
1条答案
按热度按时间u91tlkcl1#
我们使用etl来做这些事情:
1、 将数据传输到数据库;
2、 从数据库中获取数据并将其移动到其他空间。
3、 安排作业何时运行。
4、 检查作业相关性
hadoopecosphere总是使用关系数据库来恢复数据,因此etl不会被替代,因为它们做不同的事情。