如何使用Dataframes检查HDFS数据集/表的分区是否存在

xxslljrj  于 2022-12-09  发布在  HDFS
关注(0)|答案(1)|浏览(185)

我有一个按日期分区的HDFS数据集person_detailshdfs://<path>/person_details/date=20210906。我正在使用python脚本来处理这个数据集。我如何使用Dataframes检查特定分区(而不是整个数据集)是否存在?

63lcw9qa

63lcw9qa1#

看一下注解,也许您可以使用show partitions,然后计算得到的 Dataframe 以确定特定分区是否存在。

spark.sql("show partitions person_details partition(date=20210906)").count()

如果分区不存在,它将给予您0。

相关问题