使用spark的Parquet文件大小

wh6knrhe  于 2021-07-12  发布在  Spark
关注(0)|答案(0)|浏览(290)

我们使用了一些旧代码 org.apache.parquet.hadoop.api.WriteSupport api来编写Parquet格式的文件,我们开始使用apachespark来做同样的事情。
这两种方法可以成功地生成具有相同输入数据的Parquet文件,并且输出数据几乎相同。但是,输出文件的大小却大不相同。
一个由 WriteSupport 是2g,而Spark产生的是5.5g。我比较了模式,它们是一样的,有什么地方我可以进一步研究吗?
顺便说一句 WriteSupport 有Parquetmr版本1.8.0;Spark一号有1.10.0。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题