我试图存储一个avro文件作为Parquet文件与快速压缩。尽管数据以文件名为.snappy.parquet的Parquet形式写入,但文件大小保持不变。粘贴代码。
代码:
sqlContext.setConf("spark.sql.parquet.compression.codec","snappy")
orders_avro.write.parquet("/user/cloudera/problem5/parquet-snappy-compress")
我试图存储一个avro文件作为Parquet文件与快速压缩。尽管数据以文件名为.snappy.parquet的Parquet形式写入,但文件大小保持不变。粘贴代码。
代码:
sqlContext.setConf("spark.sql.parquet.compression.codec","snappy")
orders_avro.write.parquet("/user/cloudera/problem5/parquet-snappy-compress")
1条答案
按热度按时间r7s23pms1#
snappy压缩是parquet mr(spark用于编写parquet文件的库)中的默认压缩。所以这里唯一改变的就是文件名。