orc与parquet文件格式

qybjjes1  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(431)

**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。

5个月前关门了。
改进这个问题
我读过很多引用“orc文件格式在apachehive中工作得非常好,parquet在apachespark中工作得非常好”的博客和文章,但并没有对这些内容进行详细的解释。
请给我举一些例子来证明这一点。

vwkv1x7d

vwkv1x7d1#

Hive有一个矢量化的orc读取器,但没有矢量化的Parquet读取器,spark有一个矢量化的Parquet读取器,没有矢量化的orc读取器。Spark与Parquet地板的表现最好,Hive与兽人的表现最好。
矢量化意味着成批对行进行解码,极大地提高了内存局部性和缓存利用率。
[更新]
spark2.3已经引入了一个本机矢量化orc阅读器,它与本机parquet reader一起增加了读取orc文件的改进。

相关问题