我用sparkshell从hdfs读取csv文件。我可以在bash中使用以下代码读取这些csv文件:
bin/hadoop fs -cat /input/housing.csv |tail -5
所以这表明housing.csv现在确实在hdfs中。如何使用spark shell阅读?提前谢谢。
sc.textFile("hdfs://input/housing.csv").first()
我试过这种方法,但失败了。
我用sparkshell从hdfs读取csv文件。我可以在bash中使用以下代码读取这些csv文件:
bin/hadoop fs -cat /input/housing.csv |tail -5
所以这表明housing.csv现在确实在hdfs中。如何使用spark shell阅读?提前谢谢。
sc.textFile("hdfs://input/housing.csv").first()
我试过这种方法,但失败了。
2条答案
按热度按时间kninwzqo1#
你可以用spark轻松阅读
csv
方法或通过指定format("csv")
. 在您的情况下,您不应该指定hdfs://
或者应该指定完整路径hdfs://localhost:8020/input/housing.csv
.下面是一段可以读取csv的代码。
dgiusagp2#
在shell和
8020是默认端口。
谢谢,阿什