配置单元中的unicode数据支持

t2a7ltrp  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(346)

根据配置单元文档,配置单元支持表中的unicode数据。
我创建了一个带有“string”数据类型的表,并将unicode数据放入其中,但是当我说 select * from <tablename> 我得到垃圾价值

create table unicode (data string);
load data local inpath 'unicode.txt' into table unicode;

下面是select的输出

Les caract�res accentu�s (Fran�ais)

En donn�es nous avons confiance

Donn�es, donn�es, partout
et tous les noeuds �taient d�connect�

Donn�es, donn�es, partout
ni aucun bit � traiter

原始内容les caractè埃森图és(弗兰)ç自动识别系统(ais)

En données nous avons confiance

Données, données, partout
et tous les noeuds étaient déconnecté

Données, données, partout
ni aucun bit à traiter

有人能告诉我出了什么问题吗?

7rtdyuoh

7rtdyuoh1#

本例中的create table查询使用默认配置单元serde(即简单的惰性serde)创建一个表,这个serde不处理unicode。
为了处理unicode,您需要用textinput或rcserde等其他serde定义表。

ztmd8pv5

ztmd8pv52#

将文本文件保存为utf-8编码,然后将数据加载到配置单元表。不支持其他编码类型。

相关问题