我们在s3(Parquet文件)中有以下格式的数据集,数据根据行号划分为多个Parquet文件
data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...
在上面创建了一个配置单元表,
CREATE EXTERNAL TABLE parquet_hive (
foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';
总共有22000Parquet文件和文件夹的大小近300gb。当我在配置单元中对这个表运行count查询时,返回结果需要6个小时,结果将近70亿条记录。我们怎样才能使它更快?我可以在表上创建分区或索引吗?这是从s3中提取数据时通常需要的时间。有谁能告诉我,这里出了什么问题。
谢谢。
暂无答案!
目前还没有任何答案,快来回答吧!