我可以在开发环境中使用没有hadoop的spark吗?

wz3gfoph  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(514)

我对大数据和相关领域的概念非常陌生,如果我犯了一些错误或输入错误,请原谅。
我想了解apachespark,并且只在我的计算机中,在开发/测试环境中使用它。由于hadoop包含hdfs(hadoop分布式文件系统)和其他只对分布式系统重要的软件,我可以放弃它吗?如果是这样,我在哪里可以下载不需要hadoop的spark版本?在这里,我只能找到依赖hadoop的版本。

我需要什么:

运行spark的所有功能没有问题,但在一台计算机(我的家用计算机)中。
我用spark在我的电脑上做的每件事都应该在未来的集群中运行而不会出现问题。
有理由使用hadoop或任何其他分布式文件系统的Spark,如果我将在我的计算机上运行它的测试目的?
请注意,“apachespark能在没有hadoop的情况下运行吗?”与我的问题不同,因为我确实希望在开发环境中运行spark。

mzmfm0qo

mzmfm0qo1#

是的,你可以在没有hadoop的情况下安装spark。浏览spark官方文档:http://spark.apache.org/docs/latest/spark-standalone.html
粗略步骤:
下载预编译的spark或下载spark源代码并在本地构建
提取焦油
设置所需的环境变量
运行开始脚本。
spark(不带hadoop)-可在spark下载页url上获得:https://www.apache.org/dyn/closer.lua/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz
如果这个网址不工作,然后尝试从spark下载页面获取它

相关问题