我有五台联网的电脑。其中一台是主计算机,另外四台是从计算机。
每台从机都有自己的数据集(一个非常大的整数矩阵)。我想在四个不同的从属服务器上运行四个不同的集群程序。然后,将结果带回主计算机进行进一步处理(如可视化)。
我最初想用hadoop。但是,我找不到任何好的方法将上述问题(特别是输出结果)转换为map reduce框架。
有没有什么好的开源分布式计算框架可以让我轻松地完成上述任务?
提前谢谢。
我有五台联网的电脑。其中一台是主计算机,另外四台是从计算机。
每台从机都有自己的数据集(一个非常大的整数矩阵)。我想在四个不同的从属服务器上运行四个不同的集群程序。然后,将结果带回主计算机进行进一步处理(如可视化)。
我最初想用hadoop。但是,我找不到任何好的方法将上述问题(特别是输出结果)转换为map reduce框架。
有没有什么好的开源分布式计算框架可以让我轻松地完成上述任务?
提前谢谢。
2条答案
按热度按时间ubby3x7f1#
您应该使用yarn来管理多个集群或资源
yarn是企业hadoop的先决条件,它提供了资源管理和一个中心平台,可以跨hadoop集群提供一致的操作、安全性和数据治理工具。
参考
d7v8vwbk2#
似乎您已经在每个节点上存储了数据,因此您已经解决了问题的“分布式存储”元素。
由于每个节点的数据集是不同的,所以这也不是一个并行处理问题。
在我看来,您不需要hadoop或任何其他大数据框架。但是,您可以通过将代码转换为数据来接受hadoop的理念。在每个节点上运行聚类算法,然后以任何需要的方式处理结果。如果您在加载数据和在每个节点上运行集群算法时遇到问题,则需要注意,但这是一个不同的问题。