hadoop 在Ubuntu上安装大数据模块的顺序

wi3ka0sx 于 2022-11-01 发布在 Hadoop

关注(0)|答案(3)|浏览(129)

在Ubuntu上安装Hadoop、Sqoop、Zookeeper、Spark、Java、Apache、Pig、Hive、Flume、Kafka、Mysql和其他软件包的顺序是什么？

hadoop

来源：https://stackoverflow.com/questions/72582293/order-of-installing-big-data-modules-on-ubuntu

3条答案

按热度按时间

laawzig21#

从https://www.digitalocean.com/community/tutorials/how-to-install-hadoop-in-stand-alone-mode-on-ubuntu-20-04或https://phoenixnap.com/kb/install-hadoop-ubuntu开始
忘了Pig，Flume，不再相关。
如果运行Hadoop集群，则为Zookeeper。
然后是Spark，然后是Kafka。Mysql。但这条线上的顺序并不那么相关。

赞(0）回复(0）举报 2022-11-01

jrcvhitl2#

除了mysql之外，您提到的所有内容都需要Java，所以从这里开始吧。
为了实现HDFS或Kafka的高可用性，您需要Zookeeper。Zookeeper没有依赖性，因此是下一个选择。（生产集群至少需要3台服务器）
Kafka可以在下一个安装，因为它没有其他依赖项。（另外3个服务器用于高可用性）
Hive需要一个元存储库，比如Mysql，所以您需要设置Mysql并在其上运行Hive元存储库模式查询。（至少有2台服务器用于读写mysql复制）
HDFS可能是下一个-多个命名节点（用于实现高可用性）、数据节点和YARN。（7台服务器用于2个命名节点、2个资源管理器和3个数据节点+节点管理器）
Hive可以选择使用HDFS，所以如果你想使用它，那么接下来就是Hive，你可以在HDFS namenode上为Zookeeper配置高可用性。Presto或Spark是比Hive更快的选项，也可以使用元存储。（2个HiveServer用于高可用性）
使用YARN、HDFS和Hive，您可以设置Spark。
Flume是下一个，但只有在你真正需要它的时候。否则，代码可以配置为直接写Kafka。
Sqoop是一个退休的Apache项目，可以使用Spark来代替。Pig也是一样。
总的来说，一个包含Kafka和MySQL的最小生产就绪型Hadoop集群至少需要17台服务器。如果您添加负载平衡器和LDAP/Active Directory，则需要添加更多服务器。

赞(0）回复(0）举报 2022-11-01

uyhoqukh3#

只需在Ubuntu上安装CDH（Cloudera）或Ambari，安装您提到的所有Hadoop生态系统模块，然后分别安装MySQL和Kafka即可。

赞(0）回复(0）举报 2022-11-01