apacheParquet

qqrboqgw  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(283)

parquet是用复杂的嵌套数据结构从头开始构建的,并使用dremel论文中描述的记录分解和组装算法。
我知道对于通用存储格式来说,支持嵌套结构是必须的。然而,在平面数据的情况下,记录分解和组装(以及用于定义和重复级别的额外存储)的开销似乎是多余的。
开销可以忽略吗?是否有其他列存储格式可用?

p1iqtdky

p1iqtdky1#

我想说的是,只使用结构化文件类型的好处比纯文本的好处要好,不管是否有使用这种格式的算法得到支持。
xml文件可以有一个模式,但过于冗长,并且不包含像parquet这样的列统计信息。
orc、rcfile和recordio是存储的可选列格式。
apachearrow是一种内存列格式

相关问题