使用spark的Parquet文件大小

wh6knrhe 于 2021-07-12 发布在 Spark

关注(0)|答案(0)|浏览(290)

我们使用了一些旧代码 org.apache.parquet.hadoop.api.WriteSupport api来编写Parquet格式的文件，我们开始使用apachespark来做同样的事情。
这两种方法可以成功地生成具有相同输入数据的Parquet文件，并且输出数据几乎相同。但是，输出文件的大小却大不相同。
一个由 WriteSupport 是2g，而Spark产生的是5.5g。我比较了模式，它们是一样的，有什么地方我可以进一步研究吗？
顺便说一句 WriteSupport 有Parquetmr版本1.8.0；Spark一号有1.10.0。

apache-spark parquet

来源：https://stackoverflow.com/questions/66393570/parquet-file-size-using-spark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

使用spark的Parquet文件大小

暂无答案！

相关问题

热门标签

最新问答