使用spark从hadoop读取csv文件

w51jfk4q 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(707)

我用sparkshell从hdfs读取csv文件。我可以在bash中使用以下代码读取这些csv文件：

bin/hadoop fs -cat /input/housing.csv |tail -5

所以这表明housing.csv现在确实在hdfs中。如何使用spark shell阅读？提前谢谢。

sc.textFile("hdfs://input/housing.csv").first()

我试过这种方法，但失败了。

2条答案

你可以用spark轻松阅读 csv 方法或通过指定 format("csv") . 在您的情况下，您不应该指定 hdfs:// 或者应该指定完整路径 hdfs://localhost:8020/input/housing.csv .
下面是一段可以读取csv的代码。

val df = spark.
        read.
        schema(dataSchema).
        csv(s"/input/housing.csv")

在shell和

var df = spark.read.format("csv").option("header", "true").load("hdfs://x.x.x.x:8020/folder/file.csv")

8020是默认端口。
谢谢，阿什