我有一个Parquet文件的现有设置,正在从 Impala 和Spark查询。
我打算在Parquet地板上加30根相对较重的柱子。每列将存储一个结构数组。每个结构可以有5到20个字段。一个数组可能有几千个结构。
理论上,parquet是一个列存储—用列扩展它不应该影响现有查询的性能(因为它们不涉及这些列)。
这个前提正确吗?
做这个动作我应该注意什么?
一般来说,在决定Parquet文件的“宽度”(即列数)时有哪些考虑因素?
我有一个Parquet文件的现有设置,正在从 Impala 和Spark查询。
我打算在Parquet地板上加30根相对较重的柱子。每列将存储一个结构数组。每个结构可以有5到20个字段。一个数组可能有几千个结构。
理论上,parquet是一个列存储—用列扩展它不应该影响现有查询的性能(因为它们不涉及这些列)。
这个前提正确吗?
做这个动作我应该注意什么?
一般来说,在决定Parquet文件的“宽度”(即列数)时有哪些考虑因素?
暂无答案!
目前还没有任何答案,快来回答吧!