下面是我试图加载到Dataframe中的文件的一部分:
字母表|句子|注解1
è|小e |无
ü|大写u |无
ã|小a|
ç|大写c |无
当我把这个文件加载到一个Dataframe中时,所有的非英语字符都转换成了方框。试图给予 option("encoding","UTF-8")
,但没有变化。
val nonEnglishDF = spark.read.format("com.databricks.spark.csv").option("delimiter","|").option("header",true).option("encoding","UTF-8").load(hdfs file path)
请告诉我有什么解决办法。我需要保存文件最终没有在非英语字符的变化。当前保存文件时,会放置方框或问号,而不是非英语字符。
2条答案
按热度按时间li9yvcax1#
它与选项(“编码”,“iso-8859-1”)一起工作。例如
val nonenglishdf=spark.read.format(“com.databricks.spark.csv”).option(“delimiter”,“|”).option(“header”,true)。option(“encoding”,“iso-8859-1”).load(hdfs文件路径)
c8ib6hqw2#
使用
decode
该列上的函数: