vacuum不删除旧的Parquet文件

cs7cruho 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(451)

我们有azure数据湖以delta-lake格式存储Parquet文件中的数据。每次运行后，在合并新数据的地方，我们调用保留时间为0小时的vacuum来删除旧文件并运行optimize命令。
但由于某些原因，旧文件不会被删除。不过，databricks笔记本中没有错误。上面说有两个文件被删除了，但我还是看到了。我是不是漏掉了什么明显的东西？谢谢！

sqlContext.sql(f"VACUUM  '{adls_location}' RETAIN 0 HOURS")
time.sleep(60)
sqlContext.sql(f"VACUUM  '{adls_location}' RETAIN 0 HOURS")
time.sleep(60)
sqlContext.sql(f"OPTIMIZE '{adls_location}'")

apache-spark databricks azure-databricks delta-lake azure-data-lake

来源：https://stackoverflow.com/questions/62152569/vacuum-not-deleting-old-parquet-files