包含Parquet数据的hive外部表没有选择数据

q35jwt9p  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(387)

我有Hive外部表与Parquet数据。这里没有使用压缩。我正在使用spark作业将数据(Parquet文件)写入hdfs目录。但当我试图从表中选择数据时,我会得到下面的错误/警告,并且输出不会出现。我确信这是一个常见的问题。请让我知道如何克服这个问题?
hive-1.2.1000.2.5.0.0-1245 hdp-2.5.0.0-1245 spark版本1.6.2
6月1日,2017 5:04:27 pm警告:org.apache.parquet.corruptstatistics:忽略统计信息,因为无法解析创建者(请参阅parquet-251):parquet mr version 1.6.0 org.apache.parquet.versionparser$versionparseexception:无法解析创建者:parquet mr version 1.6.0,格式:(..+)version(.)?(build?(.))org.apache.parquet.versionparser.parse(versionparser。java:112)在org.apache.parquet.corruptstatistics.shouldingnorestatistics(corruptstatistics。java:60)在org.apache.parquet.format.converter.parquetmetadataconverter.fromparquetstatistics(parquetmetadataconverter。java:263)
似乎是因为spark job中使用的Parquet机版本和hive中使用的Parquet机版本不同,它们之间存在差距。在这里,我们可以看到hive中用来读取的版本是parquet mr版本1.6.0
现在,如果有人能告诉我如何更改spark作业中使用的Parquet机版本或如何更改HiveParquet机读取器版本,我可以尝试解决这个问题。

相关问题