insert-into-parquet文件生成512MB文件如何生成1GB文件?

h7wcgrx3  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(490)

我正在测试Parquet文件格式,并使用impala外部表将数据插入到Parquet文件中。
以下是可能影响Parquet文件大小的参数集:

NUM_NODES: 1 
PARQUET_COMPRESSION_CODEC: none
PARQUET_FILE_SIZE: 1073741824

我使用下面的insert语句写入parquet文件。

INSERT INTO TABLE parquet_test.parquetTable
PARTITION (pkey=X)
SELECT col1, col2, col3 FROM map_impala_poc.textTable where col1%100=X;

我想生成大约1GB的文件大小和相应的分区数据,以便每个分区的数据量不到1GB。但是,此插入操作不会生成超过512MB的单个文件。它将512 mb的数据写入一个文件,然后创建另一个文件,并将其余数据写入另一个文件。如何将所有数据写入单个文件?

tgabmvqs

tgabmvqs1#

尝试在执行查询的同一会话中设置Parquet尺寸

set PARQUET_FILE_SIZE=1g;
 INSERT INTO TABLE parquet_test.parquetTable ...

相关问题