pyspark hive.table未读取配置单元表的所有行

8cdiaqws  于 2021-05-19  发布在  Spark
关注(0)|答案(1)|浏览(387)

我用的是Hive羊驼(https://github.com/hortonworks-spark/spark-llap)在pyspark中,可以这样读取配置单元内部表:

df = hive.table(<tableName>)

但问题是我的表有1800万条记录,但当我有记录时

df.count()

我只得到750万,这是错误的

eeq64g8w

eeq64g8w1#

您可能需要刷新spark metastore,因为它不使用配置单元metastore,并且统计信息可能已经过时
您可以按以下方式刷新pyspark元存储:

spark.sql("REFRESH TABLE <TABLE_NAME>")

相关问题