mpi数据挖掘库

2q5ifsrm  于 2021-06-03  发布在  Hadoop
关注(0)|答案(3)|浏览(482)

是否有任何数据挖掘库正在使用(或可以被)mpi(传递接口)使用?我正在寻找类似于apachemahout的东西,但是可以很容易地集成到mpi环境中。
我想使用mpi的原因是配置(与hadoop相比)很简单。或者在数据挖掘场景中使用mpi没有意义吗?

rseugnpd

rseugnpd1#

mpi(这是一个概念,而不是一个软件本身!)必然比hadoop/mahout更容易安装。事实上,后两者目前是一团糟,特别是因为它们的java库非常混乱。apachebigtop试图使它们更易于安装,一旦您了解了一些基础知识,就可以了。
然而:
如果您的数据很小(也就是说,它可以在单个节点上进行处理),那么不要安装集群解决方案,您将为此支付开销。hadoop在单个主机上没有多大意义。使用weka,elki,rapidminer,knime或其他什么。
如果您的数据很大,您将希望最小化数据传输。这就是hadoop/mahout的优势所在,它最大限度地减少了数据传输。对于数据量大的操作,典型的消息传递api不能以同样的方式进行扩展。
有一些工作,比如apachehama,与mpi非常相似。它基于消息,但是它们是通过屏障同步进行批量处理的。它还可能在发送之前进行一些消息聚合,以减少通信量。

cidc1ykv

cidc1ykv2#

我强烈推荐graphlab。目前,graphlab是一种分布式图形并行api,它拥有包括
主题建模
协同过滤
聚类
图形模型
http://docs.graphlab.org/toolkits.html
graphlab是一个用c编写的基于图的高性能分布式计算框架。graphlab最初是为机器学习任务而开发的,但它在广泛的其他数据挖掘任务中获得了巨大的成功;按数量级进行其他抽象。
graphlab功能:
一个统一的多核和分布式api:一次写入在为性能而优化的共享和分布式内存系统中高效运行:优化的c
执行引擎利用广泛的多线程和异步io可扩展:graphlab使用复杂的新算法智能地放置数据和计算hdfs集成:访问直接从hdfs强大的机器学习工具包获取数据:轻松地将大数据转化为可操作的知识

carvr3hs

carvr3hs3#

这个想法没有意义,我认为你有一些误解,mpi更适用于紧密耦合的系统,我99%确定不会将消息发送到外部位置,但是你可以用mpi更快地处理或分析数据(取决于你的硬件)。我的2美分是你最好使用一个amqp协议开源实现,我想说zeromq是你最好的选择,然后处理你在r或python中得到的所有数据,或者如果你的数据集是非常大的mpi。另一种选择是,如果连接并运行mpi的不同机器都单独连接到internet,则可以调用这些机器上的串行库。用mpi调用r非常容易,python也是。

相关问题