我有一个按日期分区的HDFS数据集person_details。hdfs://<path>/person_details/date=20210906。我正在使用python脚本来处理这个数据集。我如何使用Dataframes检查特定分区(而不是整个数据集)是否存在?
person_details
hdfs://<path>/person_details/date=20210906
63lcw9qa1#
看一下注解,也许您可以使用show partitions,然后计算得到的 Dataframe 以确定特定分区是否存在。
show partitions
spark.sql("show partitions person_details partition(date=20210906)").count()
如果分区不存在,它将给予您0。
1条答案
按热度按时间63lcw9qa1#
看一下注解,也许您可以使用
show partitions
,然后计算得到的 Dataframe 以确定特定分区是否存在。如果分区不存在,它将给予您0。