cloudera impala:文件的版本号无效这可能是由于过时的元数据

eivnm1vs  于 2021-06-26  发布在  Impala
关注(0)|答案(1)|浏览(550)

我正在用impala(版本2.4.0)运行cdh发行版(版本5.6.0)。
我有一些Parquet文件存储在hdfs中。接下来,我使用以下查询将这些文件加载到impala外部表中:

create external table parquetTable
like parquet 'hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data/part-r-00015-66cf01ca-ffee-4a62-b2c3-c09177ec4bd7.gz.parquet'
stored as parquet location 'hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big_data/;

执行以下查询后,所有文件都将成功列出:

[cloudera-impala-dn0.eastus.cloudapp.azure.com:21000] > show files in parquettable;

而且,元数据是正确的(通过执行 describe parquettable ).
该表的统计信息包括:

[cloudera-impala-dn0.eastus.cloudapp.azure.com:21000] > show table stats parquettable;

行|文件|大小|缓存字节|缓存复制|格式|增量统计|位置
-1 | 838 | 249.64gb |未缓存|未缓存|Parquet|错误|hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/用户/根/大数据
执行以下查询:

[cloudera-impala-dn0.eastus.cloudapp.azure.com:21000] > select count(*) from parquettable;

导致以下警告,但没有任何输出结果或错误:
'文件'hdfs://cloudera-impala-mn0.eastus.cloudapp.azure.com:8020/user/root/big\ u data/part-r-00001-7c29b85c-bd1f-420e-8834-96300076a92d.gz.parquet'的版本号无效:▒.f/这可能是由于过时的元数据。尝试运行“refresh default.parquettable”。
跑步 refresh default.parquettable 没有任何效果。
任何帮助都将不胜感激!

wecizke3

wecizke31#

你的步子看起来不错。当您在创建表时使用part-r-00015-66cf01ca-ffee-4a62-b2c3-c09177ec4bd7.gz.parquet时,错误抱怨part-r-00001-7c29b85c-bd1f-420e-8834-96300076a92d.gz.parquet。所以看起来零件r-00001-7c29b85c-bd1f-420e-8834-96300076a92d.gz.parquet有问题。除了part-r-00015-66cf01ca-ffee-4a62-b2c3-c09177ec4bd7.gz.parquet之外,您能删除big戡u数据表中的所有文件吗?

相关问题