corruptstatistics-使用Parquet文件时的警告消息

ltqd579y  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(336)

当我在hortonworks上的hive中执行查询时,会收到大量这样的消息。
信息:org.apache.parquet.corruptstatistics:忽略统计信息,因为此文件是在1.8.0之前创建的,请参阅parquet-251
如何解决这个问题?
如果它没有被修复,那么除了这些警告,当我得到正确的结果时会产生什么影响?

h6my8fg2

h6my8fg21#

您可以通过使用使用较新的 parquet mr库的 parquet 生产者(例如hive)重新写入文件来修复此问题。然后它将用正确的统计数据填充文件。
从这个Parquet地板生成的结果是正确的。警告仅通知您,在处理此文件时,它不能使用计算(图)中的所有优化。在以前的Parquetmr版本中,计算统计数据时出现错误。这个问题现在已经解决了,但是要获得正确的统计信息(仅用于查询优化),您需要使用更新的版本重新编写所有文件。文件本身中的数据不受此错误的影响。

相关问题