如何虚拟化运行hadoop和mongodb的节点?

jecbmhm3  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(291)

我有几个关于由hadoop和mongodb组成的虚拟集群的问题。
有关我的数据管道的一些信息:
我不经常将数据从hdfs传输到mongodb,但有时我不得不这样做。
我使用hdfs作为数据湖,并使用hive提供的一些数据仓库功能。
我计划使用spark对mongodb数据运行分析任务。
我可能会使用spark在hdfs数据上运行一些任务(目前不太可能)
我知道,在不同的虚拟节点上分离hadoop和mongodb,这可能会在将数据从hdfs写入mongodb时引入网络延迟,反之亦然。
问题:
在与mongodb相同的虚拟化机器上运行hadoop生态系统(hdfs、yarn、hive、spark等等)是否有缺点?
虚拟化的hadoop和mongodb节点应该是“始终打开”的还是在空闲状态更长的时候可以关闭节点?关闭它们是否有缺点-除了下一个分析任务的较长重新启动时间?
spark与hadoop生态系统有些耦合。运行集群的首选方法是什么?
在我的虚拟节点上同时运行hadoop和mongodb
分别运行hadoop和mongodb,但只在hadoop节点上运行spark
分别运行hadoop和mongodb,在hadoop和mongodb节点上都有spark
我找不到关于如何构建这样的集群的足够信息。提前谢谢!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题