如何将序列文件转换为Parquet格式

qlvxas9a  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(471)

我有一个Hive表(测试),我需要在Parquet格式创建。我将使用一堆序列文件来创建并插入到表中。
一旦创建了table,有没有办法转换成Parquet地板?我是说,我知道我们本可以

CREATE TABLE default.test( user_id STRING, location STRING) 
PARTITIONED BY ( dt INT ) STORED AS PARQUET

最初创建表本身时。然而,在我的例子中,我被迫首先使用序列文件来创建表,因为它是我必须首先使用的格式,并且不能直接转换为parquet。有没有一种方法可以在创建表并插入数据后转换为parquet?

ubof19bj

ubof19bj1#

要将表单序列文件转换为parquet,需要将数据(cta)加载到一个新表中。
这个问题加了 presto ,所以我给你这个的presto语法。我包括分区,因为问题中的示例包含分区。

CREATE TABLE test_parquet WITH(format='PARQUET', partitioned_by=ARRAY['dt']) AS
SELECT * FROM test_sequencefile;

相关问题