我的hdfs中几乎没有文件,我想在spark中使用它们。当我发出以下命令时,我可以看到我的文件:
bin/hadoop dfs -ls /input
如何在spark中指定此文件的路径以创建rdd:
val input=sc.textFile("???")
polkgigr1#
如果您的spark安装配置正确,那么您的正常hdfs路径也应该在spark中原封不动地工作:
val input = sc.textFile("/input")
如果这不起作用,那么您可能需要确保spark配置正确地选择hadoop conf dir。您还可以尝试直接从spark代码检查文件列表,以确保正确导入配置:
import org.apache.hadoop.conf.Configuration import org.apache.hadoop.fs._ val path = new Path("/input") path.getFileSystem(new Configuration()).listStatus(path)
1条答案
按热度按时间polkgigr1#
如果您的spark安装配置正确,那么您的正常hdfs路径也应该在spark中原封不动地工作:
如果这不起作用,那么您可能需要确保spark配置正确地选择hadoop conf dir。
您还可以尝试直接从spark代码检查文件列表,以确保正确导入配置: