parquet是用复杂的嵌套数据结构从头开始构建的,并使用dremel论文中描述的记录分解和组装算法。我知道对于通用存储格式来说,支持嵌套结构是必须的。然而,在平面数据的情况下,记录分解和组装(以及用于定义和重复级别的额外存储)的开销似乎是多余的。开销可以忽略吗?是否有其他列存储格式可用?
p1iqtdky1#
我想说的是,只使用结构化文件类型的好处比纯文本的好处要好,不管是否有使用这种格式的算法得到支持。xml文件可以有一个模式,但过于冗长,并且不包含像parquet这样的列统计信息。orc、rcfile和recordio是存储的可选列格式。apachearrow是一种内存列格式
1条答案
按热度按时间p1iqtdky1#
我想说的是,只使用结构化文件类型的好处比纯文本的好处要好,不管是否有使用这种格式的算法得到支持。
xml文件可以有一个模式,但过于冗长,并且不包含像parquet这样的列统计信息。
orc、rcfile和recordio是存储的可选列格式。
apachearrow是一种内存列格式