我有一个数据集,我需要处理pca(主成分分析,一个维数减少程序),这是很容易进行使用weka。由于数据集的大小很大,weka显示了内存问题,如果我将weka与hadoop链接起来,就可以解决这个问题。在服务器上使用weka运行算法。有谁能帮我解决同样的问题吗。如何连接weka和hadoop来处理更大的数据集?请帮帮我!谢谢你。。
ddarikpa1#
weka3.7为hadoop中的分布式处理提供了新的包。这些包提供的其中一个作业将在hadoop中计算相关(或协方差)矩阵。用户可以选择让作业使用相关矩阵作为pca分析的输入(这部分在hadoop之外运行),并生成一个“经过训练的”weka pca过滤器。这将根据示例的数量(而不是原始特征的数量)缩放weka的pca分析,因为pca计算仍然在客户机上本地进行。有关hadoop软件包的更多信息,请参阅:http://markahall.blogspot.co.nz/2013/10/weka-and-hadoop-part-1.htmldistributedwekahadoop包可以通过weka 3.7中的包管理器安装。干杯,马克。
rslzwgfq2#
根据算法的不同,重写它以使用hadoop可能相当复杂。您可以改用apachemahout。它确实支持pca。
2条答案
按热度按时间ddarikpa1#
weka3.7为hadoop中的分布式处理提供了新的包。这些包提供的其中一个作业将在hadoop中计算相关(或协方差)矩阵。用户可以选择让作业使用相关矩阵作为pca分析的输入(这部分在hadoop之外运行),并生成一个“经过训练的”weka pca过滤器。这将根据示例的数量(而不是原始特征的数量)缩放weka的pca分析,因为pca计算仍然在客户机上本地进行。
有关hadoop软件包的更多信息,请参阅:
http://markahall.blogspot.co.nz/2013/10/weka-and-hadoop-part-1.html
distributedwekahadoop包可以通过weka 3.7中的包管理器安装。
干杯,马克。
rslzwgfq2#
根据算法的不同,重写它以使用hadoop可能相当复杂。
您可以改用apachemahout。它确实支持pca。