如何并行执行untarring(pyspark)

fcwjkofz  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(274)

我在pyspark有一个13gb的压缩tar文件。
我可以将bzipped文件读入rdd,spark会将bzipped文件拆分为分区,因为bzip2是一种可拆分的文件格式。我甚至可以看到rdd包含400个分区。每个分区都包含未压缩的bzipped数据(tar文件的一部分)。
但是考虑到tar文件是不可拆分的(据我所知),我不能在这400个分区中的每个分区上执行untar操作


# The following RDD contains 400 partitions

bzipped_rdd = sc.textFile("s3a://some_bucket/file.tar.bz2")

bzipped_rdd.saveAsTextFile("data_directory")

# I would like to now perform an untar operation on each partition

最好的方法是什么?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题