我对使用minio/hdfs在独立模式下运行spark很感兴趣。
这个问题问的正是我想要的:“我需要一个hdfs,因此仅仅使用hadoop的文件系统部分就足够了吗?”——但是公认的答案没有帮助,因为它没有提到如何将hdfs与spark一起使用。
我已经下载了spark 2.4.3,它是为ApacheHadoop2.7和更高版本预先构建的。
我遵循apachespark教程,成功地部署了一个主服务器(我的本地机器)和一个工作服务器(我的rpi4在同一个本地网络上)。我能够运行一个简单的字数统计(在 /opt/spark/README.md
).
现在我要计算只存在于主机上的文件的字数。我知道我需要使用hdfs在本地网络上共享文件。然而,尽管我仔细阅读了apachespark和hadoop文档,但我不知道如何做到这一点。
我对spark和hadoop之间的相互作用感到困惑。我不知道我是否应该在spark集群之外建立hadoop集群。这个关于hadoop.apache.org的教程似乎没有什么帮助,因为它说“您需要同时启动hdfs和yarn集群”。我想在独立模式下运行spark,而不是yarn。
我需要做什么才能跑
val textFile = spark.read.textFile("file_that_exists_only_on_my_master")
以及是否将文件传播到工作节点,即在工作节点上未获得“文件不存在”错误?
1条答案
按热度按时间hxzsmxv21#
我设置了minio,并编写了下面的github指南。
诀窍是设置
core_site.xml
指向minio服务器。这里是github gist