从Parquet创建sparkDataframe时未正确编码特殊字符

icnyk63a  于 2021-07-13  发布在  Spark
关注(0)|答案(0)|浏览(212)

我的输入Parquet文件有一列定义为 optional binary title (UTF8); ,其中可能包括特殊字符,例如德语umlat(即schrö丁格)。
当使用spark将parquet的内容加载到Dataframe时,行的内容将加载值schrö薛定谔ã¶丁格。我相信最好的解释,为什么会发生这种情况是回答在这里,虽然我的印象是,Spark将读取Parquet地板文件默认为utf-8无论如何。
我已经尝试使用option参数来强制utf-8编码,但是仍然没有成功。有什么建议吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题