对parquet文件进行分区

yc0p9oo0  于 2021-06-24  发布在  Pig
关注(0)|答案(1)|浏览(583)

嗨,我正在运行Pig的工作,以处理数据和存储结果为Parquet文件。现在,我必须根据当前的任何列对parquet文件进行分区。有没有办法做到这一点?

mbskvtky

mbskvtky1#

是的,有一种方法:Pig笼草。
以下是您可以注册的java udf:https://github.com/saikocat/parquet-mr-contrib/blob/master/parquet-pig-contrib/src/main/java/parquet/pig/parquetmultistorer.java
您可以传递一个特定的字段作为multistorer的参数,它将按照此字段进行分区。
当我测试它时,我遇到了一些性能问题(运行时很长),所以我决定使用简单的多存储(没有Parquet)。那时候更快了。如果遇到同样的问题,请查看此链接。
https://pig.apache.org/docs/r0.8.1/api/org/apache/pig/piggybank/storage/multistorage.html

相关问题