我有一个拆分的zip文件(在窗口中由winzip创建),然后ftp到hadoop服务器。不知何故我无法通过下面的命令来解压它
下面的文件
file.z01,file.zo2,file.zo3....file.zip
然后我在命令下面跑
hadoop fs -cat /tmp/Links.txt.gz | gzip -d | hadoop fs -put - /tmp/unzipped/Links.txt
然后出现错误
cat: Unable to write to output stream
我所期望的是将这些分割的文件解压到hadoop的特定文件夹中
1条答案
按热度按时间bttbmeg01#
不清楚是怎么回事
Links.txt.gz
与你的.zip
部件文件。。。hadoop并不真正理解zip格式(尤其是split格式),而且
gzip -d
不会工作的.zip
反正是文件。zip和gzip在hadoop处理中是可拆分的(读作“能够并行计算”),所以既然winzip支持bz2格式,我建议您切换到那个格式,我认为没有必要在windows中创建拆分文件,除非它能更快地上传文件。。。
旁注:
hadoop fs -cat /input | <anything> | hadoop fs -put - /output
不是在hadoop中分裂。。。您正在将文件的原始文本复制到本地缓冲区,然后在本地执行操作,然后可以选择将其流回到hdfs。