hive对外部s3表的查询非常慢

pgvzfuti 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(279)

我们在s3（Parquet文件）中有以下格式的数据集，数据根据行号划分为多个Parquet文件

data1_1000000.parquet
data1000001_2000000.parquet
data2000001_3000000.parquet
...

在上面创建了一个配置单元表，

CREATE EXTERNAL TABLE parquet_hive (
  foo string
) STORED AS PARQUET
LOCATION 's3://myBucket/myParquet/';

总共有22000Parquet文件和文件夹的大小近300gb。当我在配置单元中对这个表运行count查询时，返回结果需要6个小时，结果将近70亿条记录。我们怎样才能使它更快？我可以在表上创建分区或索引吗？这是从s3中提取数据时通常需要的时间。有谁能告诉我，这里出了什么问题。
谢谢。

目前还没有任何答案，快来回答吧！

相关问题