我用的是Hive羊驼(https://github.com/hortonworks-spark/spark-llap)在pyspark中,可以这样读取配置单元内部表:
df = hive.table(<tableName>)
但问题是我的表有1800万条记录,但当我有记录时
df.count()
我只得到750万,这是错误的
eeq64g8w1#
您可能需要刷新spark metastore,因为它不使用配置单元metastore,并且统计信息可能已经过时您可以按以下方式刷新pyspark元存储:
spark.sql("REFRESH TABLE <TABLE_NAME>")
1条答案
按热度按时间eeq64g8w1#
您可能需要刷新spark metastore,因为它不使用配置单元metastore,并且统计信息可能已经过时
您可以按以下方式刷新pyspark元存储: