根据配置单元文档,配置单元支持表中的unicode数据。
我创建了一个带有“string”数据类型的表,并将unicode数据放入其中,但是当我说 select * from <tablename>
我得到垃圾价值
create table unicode (data string);
load data local inpath 'unicode.txt' into table unicode;
下面是select的输出
Les caract�res accentu�s (Fran�ais)
En donn�es nous avons confiance
Donn�es, donn�es, partout
et tous les noeuds �taient d�connect�
Donn�es, donn�es, partout
ni aucun bit � traiter
原始内容les caractè埃森图és(弗兰)ç自动识别系统(ais)
En données nous avons confiance
Données, données, partout
et tous les noeuds étaient déconnecté
Données, données, partout
ni aucun bit à traiter
有人能告诉我出了什么问题吗?
2条答案
按热度按时间7rtdyuoh1#
本例中的create table查询使用默认配置单元serde(即简单的惰性serde)创建一个表,这个serde不处理unicode。
为了处理unicode,您需要用textinput或rcserde等其他serde定义表。
ztmd8pv52#
将文本文件保存为utf-8编码,然后将数据加载到配置单元表。不支持其他编码类型。