我们使用了一些旧代码 org.apache.parquet.hadoop.api.WriteSupport
api来编写Parquet格式的文件,我们开始使用apachespark来做同样的事情。
这两种方法可以成功地生成具有相同输入数据的Parquet文件,并且输出数据几乎相同。但是,输出文件的大小却大不相同。
一个由 WriteSupport
是2g,而Spark产生的是5.5g。我比较了模式,它们是一样的,有什么地方我可以进一步研究吗?
顺便说一句 WriteSupport
有Parquetmr版本1.8.0;Spark一号有1.10.0。
暂无答案!
目前还没有任何答案,快来回答吧!