如何在hadoop中解压拆分的zip文件

8dtrkrch  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(608)

我有一个拆分的zip文件(在窗口中由winzip创建),然后ftp到hadoop服务器。不知何故我无法通过下面的命令来解压它
下面的文件

file.z01,file.zo2,file.zo3....file.zip

然后我在命令下面跑

hadoop fs -cat /tmp/Links.txt.gz | gzip -d | hadoop fs -put - /tmp/unzipped/Links.txt

然后出现错误

cat: Unable to write to output stream

我所期望的是将这些分割的文件解压到hadoop的特定文件夹中

bttbmeg0

bttbmeg01#

不清楚是怎么回事 Links.txt.gz 与你的 .zip 部件文件。。。
hadoop并不真正理解zip格式(尤其是split格式),而且 gzip -d 不会工作的 .zip 反正是文件。
zip和gzip在hadoop处理中是可拆分的(读作“能够并行计算”),所以既然winzip支持bz2格式,我建议您切换到那个格式,我认为没有必要在windows中创建拆分文件,除非它能更快地上传文件。。。
旁注: hadoop fs -cat /input | <anything> | hadoop fs -put - /output 不是在hadoop中分裂。。。您正在将文件的原始文本复制到本地缓冲区,然后在本地执行操作,然后可以选择将其流回到hdfs。

相关问题