spark和hadoop之间有依赖关系吗?如果没有,当我在没有hadoop的情况下运行spark时,有什么特性我会错过吗?
4urapxun1#
是的,当然。spark是一个独立的计算框架。hadoop是一个具有mapreduce计算框架的分布式存储系统(hdfs)。spark可以从hdfs以及任何其他数据源(如传统数据库(jdbc)、kafka甚至本地磁盘)获取数据。
7vux5j2d2#
不,它需要完整的hadoop安装才能开始工作-https://issues.apache.org/jira/browse/spark-10944
mwecs4sa3#
是的,你可以不用hadoop安装spark。这将是一个小技巧,你可以参考arnonlink使用parquet来配置s3上的数据存储。http://arnon.me/2015/08/spark-parquet-s3/spark只是做处理,它使用动态内存来执行任务,但是要存储数据需要一些数据存储系统。hadoop在spark中扮演了一个角色,它为spark提供了存储空间。将hadoop与spark结合使用的另一个原因是,它们是开源的,与其他数据存储系统相比,两者可以轻松地集成在一起。对于像s3这样的其他存储,您应该很难像上面链接中提到的那样配置它。但是hadoop也有它的处理单元mapreduce。想知道两者的区别吗?检查本文:https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83我想这篇文章会帮助你理解使用什么,何时使用和如何使用!!!
b09cbbtk4#
默认情况下,spark没有存储机制。为了存储数据,需要快速、可扩展的文件系统。您可以使用s3或hdfs或任何其他文件系统。由于成本低,hadoop是一个经济的选择。此外,如果你使用超光速粒子,它将提高性能与hadoop。强烈建议使用hadoop进行apachespark处理。
a2mppw5e5#
是的,spark可以在安装hadoop的情况下运行,也可以不安装hadoop来查看更多细节-https://spark.apache.org/docs/latest/
hfsqlsce6#
根据spark文档,spark可以在没有hadoop的情况下运行。您可以作为独立模式运行它,而不需要任何资源管理器。但是,如果您想在多节点设置中运行,则需要一个资源管理器(如yarn或mesos)和一个分布式文件系统(如hdfs、s3等)。
cpjpxq1n7#
spark可以在没有hadoop的情况下运行,但是它的一些功能依赖于hadoop的代码(例如处理Parquet文件)。我们在mesos和s3上运行spark,虽然设置起来有点棘手,但一旦完成,它的工作就非常好了(您可以在这里阅读正确设置它所需的内容摘要)。(编辑)注意:由于版本2.3.0,spark还添加了对kubernetes的本机支持
cbjzeqam8#
spark是一个内存分布式计算引擎。hadoop是分布式存储(hdfs)和分布式处理(yarn)的框架。spark可以使用或不使用hadoop组件(hdfs/yarn)运行
由于spark没有自己的分布式存储系统,因此它必须依赖其中一个存储系统来进行分布式计算。s3–非紧急批处理作业。当数据局部性不重要时,s3适合非常特定的用例。cassandra–非常适合流式数据分析和批处理作业。hdfs–非常适合批量作业,而不影响数据位置。
您可以在三种不同的模式下运行spark:独立模式、Yarn模式和mesos模式有关分布式存储和分布式处理的详细说明,请看下面的问题。我应该为spark选择哪种群集类型?
qvsjd97n9#
是的,spark可以在没有hadoop的情况下运行。您可以在本地计算机上安装spark而不必使用hadoop。但是spark lib附带了pre-haddop库,即在本地机器上安装时使用的库。
htzpubme10#
是的,spark可以在没有hadoop的情况下运行。所有核心spark特性都将继续工作,但是您将错过一些事情,例如通过hdfs将所有文件(代码和数据)轻松分发到集群中的所有节点等。
10条答案
按热度按时间4urapxun1#
是的,当然。spark是一个独立的计算框架。hadoop是一个具有mapreduce计算框架的分布式存储系统(hdfs)。spark可以从hdfs以及任何其他数据源(如传统数据库(jdbc)、kafka甚至本地磁盘)获取数据。
7vux5j2d2#
不,它需要完整的hadoop安装才能开始工作-https://issues.apache.org/jira/browse/spark-10944
mwecs4sa3#
是的,你可以不用hadoop安装spark。这将是一个小技巧,你可以参考arnonlink使用parquet来配置s3上的数据存储。http://arnon.me/2015/08/spark-parquet-s3/
spark只是做处理,它使用动态内存来执行任务,但是要存储数据需要一些数据存储系统。hadoop在spark中扮演了一个角色,它为spark提供了存储空间。将hadoop与spark结合使用的另一个原因是,它们是开源的,与其他数据存储系统相比,两者可以轻松地集成在一起。对于像s3这样的其他存储,您应该很难像上面链接中提到的那样配置它。
但是hadoop也有它的处理单元mapreduce。
想知道两者的区别吗?
检查本文:https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83
我想这篇文章会帮助你理解
使用什么,
何时使用和
如何使用!!!
b09cbbtk4#
默认情况下,spark没有存储机制。
为了存储数据,需要快速、可扩展的文件系统。您可以使用s3或hdfs或任何其他文件系统。由于成本低,hadoop是一个经济的选择。
此外,如果你使用超光速粒子,它将提高性能与hadoop。强烈建议使用hadoop进行apachespark处理。
a2mppw5e5#
是的,spark可以在安装hadoop的情况下运行,也可以不安装hadoop来查看更多细节-https://spark.apache.org/docs/latest/
hfsqlsce6#
根据spark文档,spark可以在没有hadoop的情况下运行。
您可以作为独立模式运行它,而不需要任何资源管理器。
但是,如果您想在多节点设置中运行,则需要一个资源管理器(如yarn或mesos)和一个分布式文件系统(如hdfs、s3等)。
cpjpxq1n7#
spark可以在没有hadoop的情况下运行,但是它的一些功能依赖于hadoop的代码(例如处理Parquet文件)。我们在mesos和s3上运行spark,虽然设置起来有点棘手,但一旦完成,它的工作就非常好了(您可以在这里阅读正确设置它所需的内容摘要)。
(编辑)注意:由于版本2.3.0,spark还添加了对kubernetes的本机支持
cbjzeqam8#
spark是一个内存分布式计算引擎。
hadoop是分布式存储(hdfs)和分布式处理(yarn)的框架。
spark可以使用或不使用hadoop组件(hdfs/yarn)运行
分布式存储:
由于spark没有自己的分布式存储系统,因此它必须依赖其中一个存储系统来进行分布式计算。
s3–非紧急批处理作业。当数据局部性不重要时,s3适合非常特定的用例。
cassandra–非常适合流式数据分析和批处理作业。
hdfs–非常适合批量作业,而不影响数据位置。
分布式处理:
您可以在三种不同的模式下运行spark:独立模式、Yarn模式和mesos模式
有关分布式存储和分布式处理的详细说明,请看下面的问题。
我应该为spark选择哪种群集类型?
qvsjd97n9#
是的,spark可以在没有hadoop的情况下运行。您可以在本地计算机上安装spark而不必使用hadoop。但是spark lib附带了pre-haddop库,即在本地机器上安装时使用的库。
htzpubme10#
是的,spark可以在没有hadoop的情况下运行。所有核心spark特性都将继续工作,但是您将错过一些事情,例如通过hdfs将所有文件(代码和数据)轻松分发到集群中的所有节点等。