如何提取bz2文件的内容-hadoop

eiee3dmh 于 2021-05-30 发布在 Hadoop

关注(0)|答案(0)|浏览(290)

我有一个tar存档（大约40gb），它有许多子文件夹，我的数据就在其中。结构为：文件夹->子文件夹->json.bz2文件。tar文件：

Total size: ~ 40GB
Number of inner .bz2 files (arranged in folders): 50,000
Size of one .bz2 file: ~700kb
Size of one extracted JSON file: ~6 MB.

我必须将json文件加载到hdfs集群中。我试图手动提取它在我的本地目录，但我用完了空间。我计划直接将归档文件加载到hdfs中，然后解压缩它。但我不知道这是否是解决问题的好办法。由于我是hadoop新手，任何指针都会有帮助。

目前还没有任何答案，快来回答吧！

相关问题