在配置单元中使用冰岛字符作为分隔符

mpgws1up  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(465)

我正在尝试将一些双击广告日志导入到hadoop中。
这些日志存储在gzip分隔的文件中,该文件使用第1252页(windows ansi?)进行编码,并使用冰岛thorn字符作为分隔符。
我可以很高兴地将这些日志导入到一个列中,但我似乎找不到让hive理解thorn字符的方法—我想可能是因为它不理解1252编码?
我看过create table文档-http://hive.apache.org/docs/r0.9.0/language_manual/data-manipulation-statements.html -但似乎找不到任何方法让这个编码/分隔符工作。
我也看到了https://karmasphere.com/karmasphere-analyst-faq 有人建议这些文件的编码是iso-8859-1,但我不知道如何在hive或hdfs中使用这些信息。
我知道我可以在导入后进行Map,将这些行拆分为多个记录。
但是有没有更简单的方法直接使用这个分隔符呢?
谢谢
斯图尔特

bprjcwpo

bprjcwpo1#

使用'-2'字符是有符号字节。
显然Hive开发者并不认为这是个问题:https://issues.apache.org/jira/browse/hive-237

相关问题