spark:编写bzip2压缩Parquet文件

cnjp1d6j  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(299)

我想从sparksql中使用bzip2编解码器压缩Dataframe来编写Parquet文件,以便它们是可拆分的。通过以下代码,我可以使用snappy和gzip等编解码器:

sqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")
sqlContext.read.parquet(stagingDir)
        .dropDuplicates()
        .write
        .mode(SaveMode.Append)
        .parquet(outputDir)

然而,当我尝试bzip2时,它似乎不可用,因为我得到了这个异常,即使我能够从rdd编写bzip2压缩文本文件

java.lang.IllegalArgumentException: The value of spark.sql.parquet.compression.codec should be one of uncompressed, snappy, gzip, lzo, but was bzip2

有没有办法从sparksql中编写bzip2压缩Parquet文件?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题