在hadoop或分布式计算框架中管理多个集群

acruukt9 于 2021-06-01 发布在 Hadoop

关注(0)|答案(2)|浏览(412)

我有五台联网的电脑。其中一台是主计算机，另外四台是从计算机。
每台从机都有自己的数据集（一个非常大的整数矩阵）。我想在四个不同的从属服务器上运行四个不同的集群程序。然后，将结果带回主计算机进行进一步处理（如可视化）。
我最初想用hadoop。但是，我找不到任何好的方法将上述问题（特别是输出结果）转换为map reduce框架。
有没有什么好的开源分布式计算框架可以让我轻松地完成上述任务？
提前谢谢。

hadoop machine-learning parallel-processing Database distributed-computing

来源：https://stackoverflow.com/questions/53004898/manage-multiple-clusters-in-hadoop-or-distributed-computing-framework

2条答案

按热度按时间

ubby3x7f1#

您应该使用yarn来管理多个集群或资源
yarn是企业hadoop的先决条件，它提供了资源管理和一个中心平台，可以跨hadoop集群提供一致的操作、安全性和数据治理工具。
参考

赞(0）回复(0）举报 2021-06-02

d7v8vwbk2#

似乎您已经在每个节点上存储了数据，因此您已经解决了问题的“分布式存储”元素。
由于每个节点的数据集是不同的，所以这也不是一个并行处理问题。
在我看来，您不需要hadoop或任何其他大数据框架。但是，您可以通过将代码转换为数据来接受hadoop的理念。在每个节点上运行聚类算法，然后以任何需要的方式处理结果。如果您在加载数据和在每个节点上运行集群算法时遇到问题，则需要注意，但这是一个不同的问题。

赞(0）回复(0）举报 2021-06-02

我来回答

在hadoop或分布式计算框架中管理多个集群

2条答案

相关问题

热门标签

最新问答