cloudera将基于 parquet 的 Impala 迁移到基于Kudu的 Impala 的最佳实践是什么

myss37ts  于 2021-06-26  发布在  Impala
关注(0)|答案(0)|浏览(237)

我们使用cloudera作为hadoop环境。
有没有人能提供一些关于如何将现有的Parquet地板/ Impala 整合或迁移到Kudu/ Impala 的指南,以期对我们现有的生产线进行性能改进?
我们现有的管道简介如下:
我们接收csv/xlsx的数据;
我们把它们移到hdfs上;
我们将它们以Parquet的形式保存到另一个位置;
我们在impala中创建外部表,其位置指向分区的parquet数据;
我们在pyspark、sparkscala和sparksql中完成etl工作;
我们将分析结果输出到csv。
现有管道正在按预期工作,但是,随着数据保持持续增长,管道所需的时间/资源也在增加。
我们想知道什么是最好的做法迁移Parquet为基础的 Impala 到Kudu为基础的 Impala 更好的整体性能?
非常感谢你。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题