我需要创建文件格式的输出。根据本页(http://hortonworks.com/blog/orcfile-in-hdp-2-better-compression-better-performance/)这是最好的。问题?1) 我应该使用什么编解码器来创建文件格式的文件?2) 使用-text选项(例如。hadoop fs-cat-text/tmp/a.orc3) 还有其他的指示吗?现在使用这种格式还为时过早吗?利弊?谢谢。
ni65a41a1#
要在配置单元的orcfile中创建数据,只需在表定义末尾使用短语“storageasorc”并加载数据。您还可以使用sqoop,使用hcatalog导入选项直接导入orc。还有一个名为orcfiledump的工具,可以帮助您分析存储为orc的数据,提供列、类型和统计信息的列表。您不能使用-cat直接读取orc,但可以轻松地将orc数据导出到csv文件。
dsf9zpds2#
1) 我应该使用什么编解码器来创建文件格式的文件?好吧,压缩的折衷是性能。如果数据大小不是瓶颈,最好不要使用任何压缩,因为这样可以提供最大的性能。它的顺序是none->snappy->zlib(性能和大小都在下降)
2条答案
按热度按时间ni65a41a1#
要在配置单元的orcfile中创建数据,只需在表定义末尾使用短语“storageasorc”并加载数据。您还可以使用sqoop,使用hcatalog导入选项直接导入orc。
还有一个名为orcfiledump的工具,可以帮助您分析存储为orc的数据,提供列、类型和统计信息的列表。
您不能使用-cat直接读取orc,但可以轻松地将orc数据导出到csv文件。
dsf9zpds2#
1) 我应该使用什么编解码器来创建文件格式的文件?
好吧,压缩的折衷是性能。如果数据大小不是瓶颈,最好不要使用任何压缩,因为这样可以提供最大的性能。
它的顺序是none->snappy->zlib(性能和大小都在下降)