orc与parquet文件格式

qybjjes1 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(431)

**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗？**更新问题，使其成为堆栈溢出的主题。

5个月前关门了。
改进这个问题
我读过很多引用“orc文件格式在apachehive中工作得非常好，parquet在apachespark中工作得非常好”的博客和文章，但并没有对这些内容进行详细的解释。
请给我举一些例子来证明这一点。

Hive apache-spark parquet orc

来源：https://stackoverflow.com/questions/63308165/orc-vs-parquet-file-formats

1条答案

按热度按时间

vwkv1x7d1#

Hive有一个矢量化的orc读取器，但没有矢量化的Parquet读取器，spark有一个矢量化的Parquet读取器，没有矢量化的orc读取器。Spark与Parquet地板的表现最好，Hive与兽人的表现最好。
矢量化意味着成批对行进行解码，极大地提高了内存局部性和缓存利用率。
[更新]
spark2.3已经引入了一个本机矢量化orc阅读器，它与本机parquet reader一起增加了读取orc文件的改进。

赞(0）回复(0）举报 2021-05-27

我来回答

orc与parquet文件格式

1条答案

相关问题

热门标签

最新问答