用于存储类似日志的parquet行组大小

hgncfbus 于 2021-05-26 发布在 Spark

关注(0)|答案(0)|浏览(237)

我需要分析以下方式创建的日志：
数千个节点记录日志
节点同时创建日志
给定时间的日志彼此非常相似
在给定的时间，每个日志的大小只有几千字节，但是对于任何一个节点，它们加在一起（也就是说，在所有的时间里）会运行到几千字节
应在给定时间对日志进行分析
初步选择spark框架进行分析
初步看来，鉴于非常高的通用性，增量编码将有助于有效地存储和Parquet似乎是一个自然的选择。但是，了解块大小如何影响存储会很有帮助。我打算对数据进行预处理，存储在Parquet地板中，然后对其进行多次分析。
如果我选择128mb作为行组的大小，是否会导致读取128mb的数据在单个行中的列之间拆分（或）
可容纳128mb的最大行数（当然都在行组内）？
我认为两种情况下的表现会有所不同，这对吗？

apache-spark parquet

来源：https://stackoverflow.com/questions/64531867/parquet-row-group-size-for-storing-similar-logs

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

用于存储类似日志的parquet行组大小

暂无答案！

相关问题

热门标签

最新问答