了解使用parquet tools“meta”命令打印的parquet文件的元数据信息

pod7payv  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(417)

我正在学习parquet文件的内部表示,因此我浏览了apacheparquet的github页面、googledremel的论文以了解parquet文件的定义和重复级别,以及twitter的博客以了解更多关于parquet文件的信息。
为了将我通过阅读获得的对其表示的理解与实际Parquet文件表示联系起来,我使用了 parquet-tools 命令 meta 一个示例Parquet文件的选项,它打印了3个主要部分的详细信息,标题,文件模式和行组。我理解前两部分的细节,但我不能完全理解行组部分的所有细节。
下面是我的问题。
想知道更多关于什么 DO , FPO , VC (这看起来像是当前行组中所有行的计数)为。它所代表的扩展可以在Parquet工具github页面中找到,但是我想得到更多关于它的细节。我明白什么 SZ 以及 ST 是。
旁边 ENC 我看到了编码方案列表,比如 BIT_PACKED , PLAIN , RLE . 我明白这是什么意思,但我不明白为什么有至少3个编码方案使用的所有时间。
记录计数旁边 RC 和总尺寸 TS 我明白了 OFFSET . 第一页总是4。怎么计算的?。
我知道Parquet文件的页眉和页脚有4位数的魔术代码“par1”,它有什么特殊的意义吗?或者只是一些仲裁文本来决定文件是否为parquet(不依赖于文件扩展名)。
很遗憾,我无法附加 parquet-tools meta 命令的输出由于安全限制,但我希望它不会太多,以形象化我在每个问题的意思。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题