什么时候使用parquet over orc或者orc over parquet?

jdgnovmf  于 2021-06-27  发布在  Hive
关注(0)|答案(1)|浏览(463)

我通过许多栈链接和其他博客,有混合React,从所有的人。所有的答案大多是受偏袒的启发,但找不到任何具体的数据点,我们可以从中进行选择。无论是数据结构的复杂性,还是压缩,还是性能,还是兼容性,这两种文件格式在不同的博客中都被认为是好的。
请帮助解决一个替代另一个的特定用例或领域。

imzjd6km

imzjd6km1#

orc和parquet是非常相似的文件格式。与差异相比,他们有更多的相似之处。
两者都是列式文件系统
两者都有块级压缩。
但是,我们有以下的指针来选择它们:
Parquet地板由cloudera开发和支持。它的灵感来自于列式文件格式和googledremel。所以cloudera支持的产品和发行版更喜欢Parquet地板。如果您计划使用 Impala 与您的数据,然后喜欢Parquet地板
orc格式是从rcfile格式演变而来的。当您将复杂的数据类型作为数据的一部分时,这是非常好的。
兽人可以提供更好的压缩。
在提供 predicate 下推功能方面,orc比parquet更成熟。最近,这也提供了Parquet地板。
你可以在youtube上看这个视频。它很好地涵盖了这个主题。

相关问题