如何并行执行untarring(pyspark)

fcwjkofz 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(290)

我在pyspark有一个13gb的压缩tar文件。
我可以将bzipped文件读入rdd，spark会将bzipped文件拆分为分区，因为bzip2是一种可拆分的文件格式。我甚至可以看到rdd包含400个分区。每个分区都包含未压缩的bzipped数据（tar文件的一部分）。
但是考虑到tar文件是不可拆分的（据我所知），我不能在这400个分区中的每个分区上执行untar操作


# The following RDD contains 400 partitions

bzipped_rdd = sc.textFile("s3a://some_bucket/file.tar.bz2")

bzipped_rdd.saveAsTextFile("data_directory")

# I would like to now perform an untar operation on each partition

最好的方法是什么？

apache-spark pyspark bigdata tar

来源：https://stackoverflow.com/questions/62438907/how-to-perform-untarring-in-parallel-pyspark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何并行执行untarring(pyspark)

暂无答案！

相关问题

热门标签

最新问答