使用hdfs文件到apachespark

nqwrtyyt 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(292)

我的hdfs中几乎没有文件，我想在spark中使用它们。当我发出以下命令时，我可以看到我的文件：

bin/hadoop dfs -ls /input

如何在spark中指定此文件的路径以创建rdd：

val input=sc.textFile("???")

hadoop ubuntu hdfs apache-spark

来源：https://stackoverflow.com/questions/38033949/using-files-from-hdfs-into-apache-spark

1条答案

按热度按时间

polkgigr1#

如果您的spark安装配置正确，那么您的正常hdfs路径也应该在spark中原封不动地工作：

val input = sc.textFile("/input")

如果这不起作用，那么您可能需要确保spark配置正确地选择hadoop conf dir。
您还可以尝试直接从spark代码检查文件列表，以确保正确导入配置：

import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.fs._

val path = new Path("/input")
path.getFileSystem(new Configuration()).listStatus(path)

赞(0）回复(0）举报 2021-06-02

我来回答

使用hdfs文件到apachespark

1条答案

相关问题

热门标签

最新问答