对于orc文件格式,请查看配置单元文档,其中有详细说明:https://cwiki.apache.org/confluence/display/hive/languagemanual+orc Parquet文件格式以列形式存储数据。例:col1 col2 a 1 b 2 c 3 正常数据存储为a1b2c3。使用parquet,数据存储为123。对于Parquet文件格式,请阅读https://blog.twitter.com/2013/dremel-made-simple-with-parquet
3条答案
按热度按时间lmvvr0a81#
当您有大量列的表,并且您倾向于经常使用特定的列时,rc文件格式将是一个不错的选择。与读取整行数据相比,您只需检索所需的列,从而节省了时间。数据被分成行组,行组又被分成列组。
分隔文本文件是通用的文件格式。
kpbwa7wx2#
对于orc文件格式,请查看配置单元文档,其中有详细说明:https://cwiki.apache.org/confluence/display/hive/languagemanual+orc
Parquet文件格式以列形式存储数据。例:col1 col2 a 1 b 2 c 3
正常数据存储为a1b2c3。使用parquet,数据存储为123。对于Parquet文件格式,请阅读https://blog.twitter.com/2013/dremel-made-simple-with-parquet
cld4siwp3#
我看到有几个答案,但由于你的问题没有要求任何特定的文件格式,答案解决了一个或另一个文件格式。
在hive中可以使用很多文件格式。值得一提的是avro,Parquet地板。rcfile和orc。如果您想比较这些文件格式的性能和空间利用率,您可以参考网上提供的一些好的文档。以下是一些有用的链接,会让你去。
此博客帖子
来自mapr的链接[他们不讨论Parquet地板]
来自inquidia的链接
以上给出的链接将使你去。我希望这能回答你的问题。
谢谢!