Apache Spark 如何重置(清理)增量表日志,但保留数据

t30tvxxf  于 2023-03-13  发布在  Apache
关注(0)|答案(1)|浏览(176)

假设我正处于增量表的增量日志变得太大的阶段,并且我100%确信可以将表的当前版本视为版本0并永久丢弃增量日志。清理、重置增量日志但保留数据的最佳方法是什么?这是S3上的OS增量。

z2acfund

z2acfund1#

所以,我会说,但三思而后行。

  • 只是读取增量文件夹(数据)作为Parquet,并写入其他地方作为增量格式,这将创建一个新的表与新的历史。(模式:追加)
  • 另一种方法是删除增量文件夹中的日志文件,然后我使用DeltaTable.convertToDelta。有很多问题。但如果你只有附加模式,这将工作得很好。
  • 你也可以手动更改日志文件,但如果你不知道如何做,不要尝试只在生成的真实的数据。请记住,如果你在数据库中工作,Spark有一个自定义的元数据存储,其中增量表的一部分,可能他们是复制元数据从增量事务到该元数据存储。所以需要检查它,如果可能的话。我没有数据库来做这件事。所以由你。

相关问题