spark：编写bzip2压缩Parquet文件

cnjp1d6j 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(299)

我想从sparksql中使用bzip2编解码器压缩Dataframe来编写Parquet文件，以便它们是可拆分的。通过以下代码，我可以使用snappy和gzip等编解码器：

sqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")
sqlContext.read.parquet(stagingDir)
        .dropDuplicates()
        .write
        .mode(SaveMode.Append)
        .parquet(outputDir)

然而，当我尝试bzip2时，它似乎不可用，因为我得到了这个异常，即使我能够从rdd编写bzip2压缩文本文件

java.lang.IllegalArgumentException: The value of spark.sql.parquet.compression.codec should be one of uncompressed, snappy, gzip, lzo, but was bzip2

有没有办法从sparksql中编写bzip2压缩Parquet文件？

hadoop apache-spark apache-spark-sql parquet spark-dataframe

来源：https://stackoverflow.com/questions/39413617/spark-writing-bzip2-compressed-parquet-files

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark：编写bzip2压缩Parquet文件

暂无答案！

相关问题

热门标签

最新问答