使用spark scalaDataframe列中的非英语字符

fxnxkyjh 于 2021-05-24 发布在 Spark

关注(0)|答案(2)|浏览(412)

下面是我试图加载到Dataframe中的文件的一部分：
字母表|句子|注解1
è|小e |无
ü|大写u |无
ã|小a|
ç|大写c |无
当我把这个文件加载到一个Dataframe中时，所有的非英语字符都转换成了方框。试图给予 option("encoding","UTF-8") ，但没有变化。

val nonEnglishDF = spark.read.format("com.databricks.spark.csv").option("delimiter","|").option("header",true).option("encoding","UTF-8").load(hdfs file path)

请告诉我有什么解决办法。我需要保存文件最终没有在非英语字符的变化。当前保存文件时，会放置方框或问号，而不是非英语字符。

scala DataFrame apache-spark Encoding utf-8

来源：https://stackoverflow.com/questions/64261341/working-with-non-english-characters-in-columns-of-spark-scala-dataframes

2条答案

按热度按时间

li9yvcax1#

它与选项（“编码”，“iso-8859-1”）一起工作。例如
val nonenglishdf=spark.read.format（“com.databricks.spark.csv”）.option（“delimiter”，“|”）.option（“header”，true）。option（“encoding”，“iso-8859-1”）.load（hdfs文件路径）

赞(0）回复(0）举报 2021-05-25

c8ib6hqw2#

使用 decode 该列上的函数：

decode(col("column_name"), "US-ASCII")

//It should work with one of these ('US-ASCII', 'ISO-8859-1', 'UTF-8', 'UTF-16BE', 'UTF-16LE', 'UTF-16')

赞(0）回复(0）举报 2021-05-24

我来回答

使用spark scalaDataframe列中的非英语字符

2条答案

相关问题

热门标签

最新问答