我在pyspark有一个13gb的压缩tar文件。
我可以将bzipped文件读入rdd,spark会将bzipped文件拆分为分区,因为bzip2是一种可拆分的文件格式。我甚至可以看到rdd包含400个分区。每个分区都包含未压缩的bzipped数据(tar文件的一部分)。
但是考虑到tar文件是不可拆分的(据我所知),我不能在这400个分区中的每个分区上执行untar操作
# The following RDD contains 400 partitions
bzipped_rdd = sc.textFile("s3a://some_bucket/file.tar.bz2")
bzipped_rdd.saveAsTextFile("data_directory")
# I would like to now perform an untar operation on each partition
最好的方法是什么?
暂无答案!
目前还没有任何答案,快来回答吧!