我想从sparksql中使用bzip2编解码器压缩Dataframe来编写Parquet文件,以便它们是可拆分的。通过以下代码,我可以使用snappy和gzip等编解码器:
sqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")
sqlContext.read.parquet(stagingDir)
.dropDuplicates()
.write
.mode(SaveMode.Append)
.parquet(outputDir)
然而,当我尝试bzip2时,它似乎不可用,因为我得到了这个异常,即使我能够从rdd编写bzip2压缩文本文件
java.lang.IllegalArgumentException: The value of spark.sql.parquet.compression.codec should be one of uncompressed, snappy, gzip, lzo, but was bzip2
有没有办法从sparksql中编写bzip2压缩Parquet文件?
暂无答案!
目前还没有任何答案,快来回答吧!