如何提取bz2文件的内容-hadoop

eiee3dmh  于 2021-05-30  发布在  Hadoop
关注(0)|答案(0)|浏览(290)

我有一个tar存档(大约40gb),它有许多子文件夹,我的数据就在其中。结构为:文件夹->子文件夹->json.bz2文件。tar文件:

Total size: ~ 40GB
Number of inner .bz2 files (arranged in folders): 50,000
Size of one .bz2 file: ~700kb
Size of one extracted JSON file: ~6 MB.

我必须将json文件加载到hdfs集群中。我试图手动提取它在我的本地目录,但我用完了空间。我计划直接将归档文件加载到hdfs中,然后解压缩它。但我不知道这是否是解决问题的好办法。由于我是hadoop新手,任何指针都会有帮助。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题