我有一个列,它标识了我要分区的etl工作流的每个运行(我们称之为run\ id)。但是,由于这将随着时间的推移创建大量分区,并且分区不能跨越分区列的多个值,因此我想知道是否有一个专门用于分区的技术列(我们称之为partition\u id)会对我有所帮助,因为这样我就可以在不更改run\u id的情况下合并两个分区。
我现在的问题是,由于每个run\u id只能存在于一个分区中,所以在run\u id=的情况下执行查询或在run\u id上加入但不在查询中提供分区id时,在run\u id上建立索引是否仍能提供不读取所有分区的好处?
假设hive 2.1.1
暂无答案!
目前还没有任何答案,快来回答吧!