用于存储类似日志的parquet行组大小

hgncfbus  于 2021-05-26  发布在  Spark
关注(0)|答案(0)|浏览(237)

我需要分析以下方式创建的日志:
数千个节点记录日志
节点同时创建日志
给定时间的日志彼此非常相似
在给定的时间,每个日志的大小只有几千字节,但是对于任何一个节点,它们加在一起(也就是说,在所有的时间里)会运行到几千字节
应在给定时间对日志进行分析
初步选择spark框架进行分析
初步看来,鉴于非常高的通用性,增量编码将有助于有效地存储和Parquet似乎是一个自然的选择。但是,了解块大小如何影响存储会很有帮助。我打算对数据进行预处理,存储在Parquet地板中,然后对其进行多次分析。
如果我选择128mb作为行组的大小,是否会导致读取128mb的数据在单个行中的列之间拆分(或)
可容纳128mb的最大行数(当然都在行组内)?
我认为两种情况下的表现会有所不同,这对吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题