pyspark printSchema的所有列都在第一列中

vulvrdjw 于 2023-10-15 发布在 Spark

关注(0)|答案(2)|浏览(78)

我已经使用load csv函数加载了一个文本文件，但是当我试图打印模式时，它只显示了根中的一个字段，包括其中的每一行。就像这样：

root
 |-- Prscrbr_Geo_Lvl    Prscrbr_Geo_Cd  Prscrbr_Geo_Desc    Brnd_Name

有办法解决吗

pyspark

来源：https://stackoverflow.com/questions/70295887/printschema-having-all-columns-in-the-first-one

2条答案

按热度按时间

0tdrvxhp1#

添加我的评论作为答案，因为它似乎已经解决了问题。
从输出结果来看，CSV文件实际上使用制表符而不是逗号作为列之间的分隔符。要让Spark使用制表符作为分隔符，可以使用spark.read.format("csv").option("sep", "\t").load("/path/to/file")

赞(0）回复(0）举报 2023-10-15

xpcnnkqh2#

df2 = spark.read.format（“csv”）.option（“sep”，“\t”）.option（“header”，True）.option（“infraschema”，True）.load（“/home/ranga/Downloads/spark _docs/interview_preparation/data1.csv”）

赞(0）回复(0）举报 2023-10-15

我来回答

pyspark printSchema的所有列都在第一列中

2条答案

相关问题

热门标签

最新问答