配置单元设置Parquet文件大小?

kcrjzv8t  于 2021-06-24  发布在  Hive
关注(0)|答案(0)|浏览(280)

如何设置Parquet文件大小?我试图调整一些设置,但最终我得到一个单一的大Parquet文件。
我已经创建了一个分区的外部表,然后通过insert overwrite语句插入其中。

SET hive.auto.convert.join=false;
SET hive.support.concurrency=false;
SET hive.exec.reducers.max=600;
SET hive.exec.parallel=true;
SET hive.exec.compress.intermediate=true;
SET hive.intermediate.compression.codec=org.apache.hadoop.io.compress.Lz4Codec;
SET mapreduce.map.output.compress=false;
SET mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.Lz4Codec;
SET hive.groupby.orderby.position.alias=true;
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.optimize.sort.dynamic.partition=true;
SET hive.resultset.use.unique.column.names=false
SET mapred.reduce.tasks=100;
SET dfs.blocksize=268435456;
SET parquet.block.size=268435456;

INSERT OVERWRITE TABLE my_table PARTITION (dt)
SELECT dt, x, sum(y) FROM managed_table GROUP BY dt, x;

使用dfs.blocksize和parquet.block.size参数,我希望生成256mb的Parquet文件分割,但是我得到一个4gb的Parquet文件。豪

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题