如何设置hdfs文件系统以使用hdfs运行spark作业?

myzjeezk  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(350)

我对使用minio/hdfs在独立模式下运行spark很感兴趣。
这个问题问的正是我想要的:“我需要一个hdfs,因此仅仅使用hadoop的文件系统部分就足够了吗?”——但是公认的答案没有帮助,因为它没有提到如何将hdfs与spark一起使用。
我已经下载了spark 2.4.3,它是为ApacheHadoop2.7和更高版本预先构建的。
我遵循apachespark教程,成功地部署了一个主服务器(我的本地机器)和一个工作服务器(我的rpi4在同一个本地网络上)。我能够运行一个简单的字数统计(在 /opt/spark/README.md ).
现在我要计算只存在于主机上的文件的字数。我知道我需要使用hdfs在本地网络上共享文件。然而,尽管我仔细阅读了apachespark和hadoop文档,但我不知道如何做到这一点。
我对spark和hadoop之间的相互作用感到困惑。我不知道我是否应该在spark集群之外建立hadoop集群。这个关于hadoop.apache.org的教程似乎没有什么帮助,因为它说“您需要同时启动hdfs和yarn集群”。我想在独立模式下运行spark,而不是yarn。
我需要做什么才能跑

val textFile = spark.read.textFile("file_that_exists_only_on_my_master")

以及是否将文件传播到工作节点,即在工作节点上未获得“文件不存在”错误?

hxzsmxv2

hxzsmxv21#

我设置了minio,并编写了下面的github指南。
诀窍是设置 core_site.xml 指向minio服务器。
这里是github gist

<script src="https://gist.github.com/lieuzhenghong/c062aa2c5544d6b1a0fa5139e10441ad.js"></script>

相关问题