hadoop pig或流式和zip文件

w8ntj3qf  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(328)

使用pig或hadoop流媒体,有人加载和解压缩压缩文件吗?原始csv文件是使用pkzip压缩的。

bejyjqdl

bejyjqdl1#

不确定这是否有用,因为它主要集中在java中使用mapreduce,但是hadoop中提供了zipfileinputformat。通过java api的使用说明如下:
http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/
其中的主要部分是zipfilerecordreader,它使用javaszipinputstream来处理每个zipentry。hadoop阅读器可能不会为您提供现成的服务,因为它将每个zipentry的文件路径作为键传递,zipentry内容作为值传递。

相关问题