如何在hadoop中解压拆分的zip文件

8dtrkrch 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(610)

我有一个拆分的zip文件（在窗口中由winzip创建），然后ftp到hadoop服务器。不知何故我无法通过下面的命令来解压它
下面的文件

file.z01,file.zo2,file.zo3....file.zip

然后我在命令下面跑

hadoop fs -cat /tmp/Links.txt.gz | gzip -d | hadoop fs -put - /tmp/unzipped/Links.txt

然后出现错误

cat: Unable to write to output stream

我所期望的是将这些分割的文件解压到hadoop的特定文件夹中

hadoop unzip

来源：https://stackoverflow.com/questions/53331549/how-to-unzip-a-split-zip-file-in-hadoop

1条答案

按热度按时间

bttbmeg01#

不清楚是怎么回事 Links.txt.gz 与你的 .zip 部件文件。。。
hadoop并不真正理解zip格式（尤其是split格式），而且 gzip -d 不会工作的 .zip 反正是文件。
zip和gzip在hadoop处理中是可拆分的（读作“能够并行计算”），所以既然winzip支持bz2格式，我建议您切换到那个格式，我认为没有必要在windows中创建拆分文件，除非它能更快地上传文件。。。
旁注： hadoop fs -cat /input | <anything> | hadoop fs -put - /output 不是在hadoop中分裂。。。您正在将文件的原始文本复制到本地缓冲区，然后在本地执行操作，然后可以选择将其流回到hdfs。

赞(0）回复(0）举报 2021-06-02

我来回答

如何在hadoop中解压拆分的zip文件

1条答案

相关问题

热门标签

最新问答