如何将weka与hadoop联系起来？

uqzxnwby 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(406)

我有一个数据集，我需要处理pca（主成分分析，一个维数减少程序），这是很容易进行使用weka。
由于数据集的大小很大，weka显示了内存问题，如果我将weka与hadoop链接起来，就可以解决这个问题。在服务器上使用weka运行算法。有谁能帮我解决同样的问题吗。如何连接weka和hadoop来处理更大的数据集？请帮帮我！
谢谢你。。

hadoop pca weka

来源：https://stackoverflow.com/questions/21305962/how-to-link-weka-with-hadoop

2条答案

按热度按时间

ddarikpa1#

weka3.7为hadoop中的分布式处理提供了新的包。这些包提供的其中一个作业将在hadoop中计算相关（或协方差）矩阵。用户可以选择让作业使用相关矩阵作为pca分析的输入（这部分在hadoop之外运行），并生成一个“经过训练的”weka pca过滤器。这将根据示例的数量（而不是原始特征的数量）缩放weka的pca分析，因为pca计算仍然在客户机上本地进行。
有关hadoop软件包的更多信息，请参阅：
http://markahall.blogspot.co.nz/2013/10/weka-and-hadoop-part-1.html
distributedwekahadoop包可以通过weka 3.7中的包管理器安装。
干杯，马克。

赞(0）回复(0）举报 2021-06-03

rslzwgfq2#

根据算法的不同，重写它以使用hadoop可能相当复杂。
您可以改用apachemahout。它确实支持pca。

赞(0）回复(0）举报 2021-06-03