我已经使用load csv函数加载了一个文本文件,但是当我试图打印模式时,它只显示了根中的一个字段,包括其中的每一行。就像这样:
load
root |-- Prscrbr_Geo_Lvl Prscrbr_Geo_Cd Prscrbr_Geo_Desc Brnd_Name
有办法解决吗
0tdrvxhp1#
添加我的评论作为答案,因为它似乎已经解决了问题。从输出结果来看,CSV文件实际上使用制表符而不是逗号作为列之间的分隔符。要让Spark使用制表符作为分隔符,可以使用spark.read.format("csv").option("sep", "\t").load("/path/to/file")
spark.read.format("csv").option("sep", "\t").load("/path/to/file")
xpcnnkqh2#
df2 = spark.read.format(“csv”).option(“sep”,“\t”).option(“header”,True).option(“infraschema”,True).load(“/home/ranga/Downloads/spark _docs/interview_preparation/data1.csv”)
2条答案
按热度按时间0tdrvxhp1#
添加我的评论作为答案,因为它似乎已经解决了问题。
从输出结果来看,CSV文件实际上使用制表符而不是逗号作为列之间的分隔符。要让Spark使用制表符作为分隔符,可以使用
spark.read.format("csv").option("sep", "\t").load("/path/to/file")
xpcnnkqh2#
df2 = spark.read.format(“csv”).option(“sep”,“\t”).option(“header”,True).option(“infraschema”,True).load(“/home/ranga/Downloads/spark _docs/interview_preparation/data1.csv”)