**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。
5个月前关门了。改进这个问题我读过很多引用“orc文件格式在apachehive中工作得非常好,parquet在apachespark中工作得非常好”的博客和文章,但并没有对这些内容进行详细的解释。请给我举一些例子来证明这一点。
vwkv1x7d1#
Hive有一个矢量化的orc读取器,但没有矢量化的Parquet读取器,spark有一个矢量化的Parquet读取器,没有矢量化的orc读取器。Spark与Parquet地板的表现最好,Hive与兽人的表现最好。矢量化意味着成批对行进行解码,极大地提高了内存局部性和缓存利用率。[更新]spark2.3已经引入了一个本机矢量化orc阅读器,它与本机parquet reader一起增加了读取orc文件的改进。
1条答案
按热度按时间vwkv1x7d1#
Hive有一个矢量化的orc读取器,但没有矢量化的Parquet读取器,spark有一个矢量化的Parquet读取器,没有矢量化的orc读取器。Spark与Parquet地板的表现最好,Hive与兽人的表现最好。
矢量化意味着成批对行进行解码,极大地提高了内存局部性和缓存利用率。
[更新]
spark2.3已经引入了一个本机矢量化orc阅读器,它与本机parquet reader一起增加了读取orc文件的改进。