如何将Parquet文件加载到配置单元表

mwecs4sa  于 2021-06-03  发布在  Sqoop
关注(0)|答案(1)|浏览(396)

我已经从mysql导入了一个sqoop,得到了一个csv文件。文件内容如下

1,KM,Skypark,null,2017-02-21 14:40:49.0,null
2,KM,null,null,2017-02-21 14:40:49.0,null
3,HD,null,null,2017-02-21 14:40:49.0,null
4,AB,SD,USA,2017-02-21 14:40:49.0,null
5,ABa,SaD,US,2017-02-21 14:40:49.0,null
6,DF,SDF,SF,2017-02-21 14:40:49.0,null
7,DF,SDF,SF,2017-02-21 14:41:44.0,null
8,DF,SDF,SF,2017-02-21 14:44:55.0,null
9,DF,SDF,SF,2017-02-21 14:47:59.0,null

现在同样的sqoop导入我做了Parquet文件。我有个文件,扩展名是.parquet。
我想用Parquet文件创建一个表。我试过以下方法,但它给了我不同的wierd错误。

create external table test(id int, name string, address string, nation string, date string) row format delimited fields terminated by ',' stored as parquet;

load data inpath '/user/XXXXX/test' into table test;

我如何得到Parquet表给我准确的结果作为csv表。
假设我得到了一个增量数据到我存储以前数据的同一个文件夹。我有10号和11号身份证的记录。现在,当我将数据从文件夹加载到parquet表时,我得到的是作为第一个记录的增量数据,然后是初始数据。
我是说这张table看起来像

10 ..............
11 ..............
 1 ..............
 2 ..............

像这样,我希望第一个记录是第一个,最后是增量数据
我们怎样才能做到这一点?

pxyaymoc

pxyaymoc1#

创建Parquet表时,不需要指定以下语句
以','结尾的行格式分隔字段
只要指定存储为Parquet就足够了

create external table test(id int, name string, address string, nation string, date string) stored as parquet location '/user/XXXXX/test';

相关问题