我正在学习parquet文件的内部表示,因此我浏览了apacheparquet的github页面、googledremel的论文以了解parquet文件的定义和重复级别,以及twitter的博客以了解更多关于parquet文件的信息。
为了将我通过阅读获得的对其表示的理解与实际Parquet文件表示联系起来,我使用了 parquet-tools
命令 meta
一个示例Parquet文件的选项,它打印了3个主要部分的详细信息,标题,文件模式和行组。我理解前两部分的细节,但我不能完全理解行组部分的所有细节。
下面是我的问题。
想知道更多关于什么 DO
, FPO
, VC
(这看起来像是当前行组中所有行的计数)为。它所代表的扩展可以在Parquet工具github页面中找到,但是我想得到更多关于它的细节。我明白什么 SZ
以及 ST
是。
旁边 ENC
我看到了编码方案列表,比如 BIT_PACKED
, PLAIN
, RLE
. 我明白这是什么意思,但我不明白为什么有至少3个编码方案使用的所有时间。
记录计数旁边 RC
和总尺寸 TS
我明白了 OFFSET
. 第一页总是4。怎么计算的?。
我知道Parquet文件的页眉和页脚有4位数的魔术代码“par1”,它有什么特殊的意义吗?或者只是一些仲裁文本来决定文件是否为parquet(不依赖于文件扩展名)。
很遗憾,我无法附加 parquet-tools meta
命令的输出由于安全限制,但我希望它不会太多,以形象化我在每个问题的意思。
暂无答案!
目前还没有任何答案,快来回答吧!