ApacheHive中的字符集、重音符号、特殊字符

ecr0jaav  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(408)

问题
我的配置单元表在某些行值中包含特殊字符(法语)时遇到了一些问题。基本上,当查询数据时(通过hivecli或其他方法),任何特殊字符(比如字母上的重音或其他音调符号)都会被转换成纯粹的乱码(各种奇怪的符号)。问题不在于列名,而在于实际的行值和内容。
例如,不打印“variat°" 或任何其他特殊字符或重音符号,我得到的结果是(使用select语句时):

Variat� cancel

信息与配置
配置单元表是外部的,来自hdfs中以字符集iso-8859-1编码的csv文件。更改原始文件编码字符集不会产生更好的结果。
我在RedhatEnterprise6上使用hortonworks发行版2.2。原始csv在linux中正确显示。
问题
我在网上找过类似的问题,但似乎没有人遇到过。或者至少每个人在使用配置单元时都只使用英语:)一些jira已经解决了配置单元表列名中使用特殊字符的问题-但我的问题是行的实际内容。
我怎样才能在Hive里处理这个问题?
无法在配置单元中显示特殊字符吗?
hive有没有“charset”选项?
任何帮助将不胜感激,因为我目前被困。提前谢谢!

zlwx9yxi

zlwx9yxi1#

我也有类似的问题,但由于我的源文件很小,所以使用notepad++将其转换为utf-8编码。

相关问题