当我在hortonworks上的hive中执行查询时,会收到大量这样的消息。信息:org.apache.parquet.corruptstatistics:忽略统计信息,因为此文件是在1.8.0之前创建的,请参阅parquet-251如何解决这个问题?如果它没有被修复,那么除了这些警告,当我得到正确的结果时会产生什么影响?
h6my8fg21#
您可以通过使用使用较新的 parquet mr库的 parquet 生产者(例如hive)重新写入文件来修复此问题。然后它将用正确的统计数据填充文件。从这个Parquet地板生成的结果是正确的。警告仅通知您,在处理此文件时,它不能使用计算(图)中的所有优化。在以前的Parquetmr版本中,计算统计数据时出现错误。这个问题现在已经解决了,但是要获得正确的统计信息(仅用于查询优化),您需要使用更新的版本重新编写所有文件。文件本身中的数据不受此错误的影响。
1条答案
按热度按时间h6my8fg21#
您可以通过使用使用较新的 parquet mr库的 parquet 生产者(例如hive)重新写入文件来修复此问题。然后它将用正确的统计数据填充文件。
从这个Parquet地板生成的结果是正确的。警告仅通知您,在处理此文件时,它不能使用计算(图)中的所有优化。在以前的Parquetmr版本中,计算统计数据时出现错误。这个问题现在已经解决了,但是要获得正确的统计信息(仅用于查询优化),您需要使用更新的版本重新编写所有文件。文件本身中的数据不受此错误的影响。