hadoop 在Ubuntu上安装大数据模块的顺序

wi3ka0sx  于 2022-11-01  发布在  Hadoop
关注(0)|答案(3)|浏览(129)

在Ubuntu上安装Hadoop、Sqoop、Zookeeper、Spark、Java、Apache、Pig、Hive、Flume、Kafka、Mysql和其他软件包的顺序是什么?

laawzig2

laawzig21#

https://www.digitalocean.com/community/tutorials/how-to-install-hadoop-in-stand-alone-mode-on-ubuntu-20-04https://phoenixnap.com/kb/install-hadoop-ubuntu开始
忘了Pig,Flume,不再相关。
如果运行Hadoop集群,则为Zookeeper。
然后是Spark,然后是Kafka。Mysql。但这条线上的顺序并不那么相关。

jrcvhitl

jrcvhitl2#

除了mysql之外,您提到的所有内容都需要Java,所以从这里开始吧。
为了实现HDFS或Kafka的高可用性,您需要Zookeeper。Zookeeper没有依赖性,因此是下一个选择。(生产集群至少需要3台服务器)
Kafka可以在下一个安装,因为它没有其他依赖项。(另外3个服务器用于高可用性)
Hive需要一个元存储库,比如Mysql,所以您需要设置Mysql并在其上运行Hive元存储库模式查询。(至少有2台服务器用于读写mysql复制)
HDFS可能是下一个-多个命名节点(用于实现高可用性)、数据节点和YARN。(7台服务器用于2个命名节点、2个资源管理器和3个数据节点+节点管理器)
Hive可以选择使用HDFS,所以如果你想使用它,那么接下来就是Hive,你可以在HDFS namenode上为Zookeeper配置高可用性。Presto或Spark是比Hive更快的选项,也可以使用元存储。(2个HiveServer用于高可用性)
使用YARN、HDFS和Hive,您可以设置Spark。
Flume是下一个,但只有在你真正需要它的时候。否则,代码可以配置为直接写Kafka。
Sqoop是一个退休的Apache项目,可以使用Spark来代替。Pig也是一样。
总的来说,一个包含Kafka和MySQL的最小生产就绪型Hadoop集群至少需要17台服务器。如果您添加负载平衡器和LDAP/Active Directory,则需要添加更多服务器。

uyhoqukh

uyhoqukh3#

只需在Ubuntu上安装CDH(Cloudera)或Ambari,安装您提到的所有Hadoop生态系统模块,然后分别安装MySQL和Kafka即可。

相关问题