我的Hive表如下所示:
create external table abc (
id string,
product strring,
.
.
.
city string
) partitioned by
(state string)
location 'path/to/dataFile/in/HDFS';
这个表有美国各地的数据,你可以看到它是按州划分的。状态栏中的样本值为nj、ca、az等。
问题是,这家公司的大部分业务都在加州。所以,这个表有80%的数据在partition state=ca中。我需要重新建模,因为查询state=ca需要时间,因为它有大量的数据。
我想在城市专栏上做广告,但想从这个论坛上发表看法。请告诉任何人有任何好主意重塑它。
暂无答案!
目前还没有任何答案,快来回答吧!