如何设置hdfs文件系统以使用hdfs运行spark作业？

myzjeezk 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(373)

我对使用minio/hdfs在独立模式下运行spark很感兴趣。
这个问题问的正是我想要的：“我需要一个hdfs，因此仅仅使用hadoop的文件系统部分就足够了吗？”——但是公认的答案没有帮助，因为它没有提到如何将hdfs与spark一起使用。
我已经下载了spark 2.4.3，它是为ApacheHadoop2.7和更高版本预先构建的。
我遵循apachespark教程，成功地部署了一个主服务器（我的本地机器）和一个工作服务器（我的rpi4在同一个本地网络上）。我能够运行一个简单的字数统计（在 /opt/spark/README.md ).
现在我要计算只存在于主机上的文件的字数。我知道我需要使用hdfs在本地网络上共享文件。然而，尽管我仔细阅读了apachespark和hadoop文档，但我不知道如何做到这一点。
我对spark和hadoop之间的相互作用感到困惑。我不知道我是否应该在spark集群之外建立hadoop集群。这个关于hadoop.apache.org的教程似乎没有什么帮助，因为它说“您需要同时启动hdfs和yarn集群”。我想在独立模式下运行spark，而不是yarn。
我需要做什么才能跑

val textFile = spark.read.textFile("file_that_exists_only_on_my_master")

以及是否将文件传播到工作节点，即在工作节点上未获得“文件不存在”错误？

hadoop apache-spark

来源：https://stackoverflow.com/questions/57605804/how-do-i-set-up-a-hdfs-file-system-to-run-a-spark-job-with-hdfs

1条答案

按热度按时间

hxzsmxv21#

我设置了minio，并编写了下面的github指南。
诀窍是设置 core_site.xml 指向minio服务器。
这里是github gist

<script src="https://gist.github.com/lieuzhenghong/c062aa2c5544d6b1a0fa5139e10441ad.js"></script>

赞(0）回复(0）举报 2021-05-29

我来回答

如何设置hdfs文件系统以使用hdfs运行spark作业？

1条答案

相关问题

热门标签

最新问答