我们有一个集群事务表(10k bucket),对于以下两个用例来说,它似乎效率低下
与每日增量合并
基于日期范围的查询。
我们要做的是按日期对表进行分区,从而创建分区的集群事务表。daily volume建议存储桶的数量大约为1-3,但是插入到新创建的表中会产生\u个存储桶的数量减少任务,这太慢了,并且由于硬盘驱动器有限,会导致合并减少器出现一些问题。
这两个问题都是可以解决的(例如,我们可以将数据分割成几个块,然后启动单独的作业,使用n个作业*n个存储桶来并行地插入到目标表中,尽管这会导致对源表的多次读取),但我相信应该有正确的方法来做到这一点,所以问题是:这种正确的方法是什么?
p、 s.hive版本:1.2.1000.2.6.4.0-91
暂无答案!
目前还没有任何答案,快来回答吧!