如何将weka与hadoop联系起来?

uqzxnwby  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(383)

我有一个数据集,我需要处理pca(主成分分析,一个维数减少程序),这是很容易进行使用weka。
由于数据集的大小很大,weka显示了内存问题,如果我将weka与hadoop链接起来,就可以解决这个问题。在服务器上使用weka运行算法。有谁能帮我解决同样的问题吗。如何连接weka和hadoop来处理更大的数据集?请帮帮我!
谢谢你。。

ddarikpa

ddarikpa1#

weka3.7为hadoop中的分布式处理提供了新的包。这些包提供的其中一个作业将在hadoop中计算相关(或协方差)矩阵。用户可以选择让作业使用相关矩阵作为pca分析的输入(这部分在hadoop之外运行),并生成一个“经过训练的”weka pca过滤器。这将根据示例的数量(而不是原始特征的数量)缩放weka的pca分析,因为pca计算仍然在客户机上本地进行。
有关hadoop软件包的更多信息,请参阅:
http://markahall.blogspot.co.nz/2013/10/weka-and-hadoop-part-1.html
distributedwekahadoop包可以通过weka 3.7中的包管理器安装。
干杯,马克。

rslzwgfq

rslzwgfq2#

根据算法的不同,重写它以使用hadoop可能相当复杂。
您可以改用apachemahout。它确实支持pca。

相关问题