pyspark printSchema的所有列都在第一列中

vulvrdjw  于 2023-10-15  发布在  Spark
关注(0)|答案(2)|浏览(78)

我已经使用load csv函数加载了一个文本文件,但是当我试图打印模式时,它只显示了根中的一个字段,包括其中的每一行。就像这样:

root
 |-- Prscrbr_Geo_Lvl    Prscrbr_Geo_Cd  Prscrbr_Geo_Desc    Brnd_Name

有办法解决吗

0tdrvxhp

0tdrvxhp1#

添加我的评论作为答案,因为它似乎已经解决了问题。
从输出结果来看,CSV文件实际上使用制表符而不是逗号作为列之间的分隔符。要让Spark使用制表符作为分隔符,可以使用spark.read.format("csv").option("sep", "\t").load("/path/to/file")

xpcnnkqh

xpcnnkqh2#

df2 = spark.read.format(“csv”).option(“sep”,“\t”).option(“header”,True).option(“infraschema”,True).load(“/home/ranga/Downloads/spark _docs/interview_preparation/data1.csv”)

相关问题