我们有一个配置单元表,它的后台有snappy.parquet数据作为该表的数据。数据具有特殊的欧洲和亚洲字符,如'á' 'è' '月' . 已通过将ascii文件转换为具有spark save功能的parquet来加载配置单元表
列名称字符串
参考编号:bigint
人绳
斯普拉斯弦
aatkg字符串
wgbez string[此字段中有特殊字符]
errez60 string[此字段中有特殊字符]coller string
t\u id bigint公司
文件标记字符串。
尝试在这个表上执行常规选择时,它显示的是结果,但对于特殊字符,它显示的是这样的-->“carte de t”�我�“电话”。但是,同一字段中没有这些特殊字符的其余数据都正确地显示出来了。如果我)我们需要在配置单元表级别设置任何编码设置,请给出建议,如何设置?或者ii)是否与设置serde属性和正确的表属性进行编码有关。那是什么,怎么做。如果您能提供建议,我们将不胜感激。iii)或者我在这里遗漏的任何其他元素。
1条答案
按热度按时间yqhsw0fo1#
请尝试简单的文本格式(没有Parquet)。使用utf-8字符保存的文件。使用此文件加载表。真的需要Parquet地板吗?