spark sql与impala for etl之比较

yi0zb3m4  于 2021-06-26  发布在  Impala
关注(0)|答案(1)|浏览(468)

目前,我们使用的是传统的数据仓库etl工具ibmdatastage。我们正在寻找迁移这些工作。这些工作主要包括连接和转换以派生事实表。哪种技术能更好地转移这些工作?我们正在使用hue oozie和impala查询进行etl,我们是否应该使用sparksql进行etl而不是impala查询?

f0ofjuux

f0ofjuux1#

r u如何在hive、impala等中实现Type2等对我来说,整个大数据栈对prod env是无用的
u不仅追加数据,而且批量更新以加载类型2之类的数据。对于数据更正你需要大量的临时查询,更新,删除插入。从支持/开发团队运行大量临时查询以查找结果
差异等。所有上述3点使这堆无用。
用例是大量的数据,其中输出是一些估计而不是正确性,一个大的胖表,带有删除和删除或非结构化数据

相关问题