使用hdfs文件到apachespark

nqwrtyyt  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(291)

我的hdfs中几乎没有文件,我想在spark中使用它们。当我发出以下命令时,我可以看到我的文件:

bin/hadoop dfs -ls /input

如何在spark中指定此文件的路径以创建rdd:

val input=sc.textFile("???")
polkgigr

polkgigr1#

如果您的spark安装配置正确,那么您的正常hdfs路径也应该在spark中原封不动地工作:

val input = sc.textFile("/input")

如果这不起作用,那么您可能需要确保spark配置正确地选择hadoop conf dir。
您还可以尝试直接从spark代码检查文件列表,以确保正确导入配置:

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs._

val path = new Path("/input")
path.getFileSystem(new Configuration()).listStatus(path)

相关问题