我有用ascii字符清除的大数据文件æ (六角e6)。我为解析文件而截取的代码如下所示,但是解析器似乎没有正确地分割值(我使用spark 2.4.1)
implicit class DataFrameReadImplicits (dataFrameReader: DataFrameReader) {
def readTeradataCSV(schema: StructType, path: String) : DataFrame = {
dataFrameReader.option("delimiter", "\u00E6")
.option("header", "false")
.option("inferSchema", "false")
.option("multiLine","true")
.option("encoding", "UTF-8")
.schema(schema)
.csv(path)
}
}
示例文件:https://gist.github.com/ashikaumanga/c2161eee07da9b10052a4e53bc4c567e
有什么建议吗?
暂无答案!
目前还没有任何答案,快来回答吧!