使用pig或hadoop流媒体,有人加载和解压缩压缩文件吗?原始csv文件是使用pkzip压缩的。
bejyjqdl1#
不确定这是否有用,因为它主要集中在java中使用mapreduce,但是hadoop中提供了zipfileinputformat。通过java api的使用说明如下:http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/其中的主要部分是zipfilerecordreader,它使用javaszipinputstream来处理每个zipentry。hadoop阅读器可能不会为您提供现成的服务,因为它将每个zipentry的文件路径作为键传递,zipentry内容作为值传递。
1条答案
按热度按时间bejyjqdl1#
不确定这是否有用,因为它主要集中在java中使用mapreduce,但是hadoop中提供了zipfileinputformat。通过java api的使用说明如下:
http://cotdp.com/2012/07/hadoop-processing-zip-files-in-mapreduce/
其中的主要部分是zipfilerecordreader,它使用javaszipinputstream来处理每个zipentry。hadoop阅读器可能不会为您提供现成的服务,因为它将每个zipentry的文件路径作为键传递,zipentry内容作为值传递。