我有一个tar存档(大约40gb),它有许多子文件夹,我的数据就在其中。结构为:文件夹->子文件夹->json.bz2文件。tar文件:
Total size: ~ 40GB
Number of inner .bz2 files (arranged in folders): 50,000
Size of one .bz2 file: ~700kb
Size of one extracted JSON file: ~6 MB.
我必须将json文件加载到hdfs集群中。我试图手动提取它在我的本地目录,但我用完了空间。我计划直接将归档文件加载到hdfs中,然后解压缩它。但我不知道这是否是解决问题的好办法。由于我是hadoop新手,任何指针都会有帮助。
暂无答案!
目前还没有任何答案,快来回答吧!