hive对外部s3表的查询非常慢

pgvzfuti  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(279)

我们在s3(Parquet文件)中有以下格式的数据集,数据根据行号划分为多个Parquet文件

data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...

在上面创建了一个配置单元表,

CREATE EXTERNAL TABLE parquet_hive (
  foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';

总共有22000Parquet文件和文件夹的大小近300gb。当我在配置单元中对这个表运行count查询时,返回结果需要6个小时,结果将近70亿条记录。我们怎样才能使它更快?我可以在表上创建分区或索引吗?这是从s3中提取数据时通常需要的时间。有谁能告诉我,这里出了什么问题。
谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题