决策树id3/c4.5在hadoop上的并行处理并行实现

dtcbnfnu  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(369)

我想实现决策树 ID3/C4.5Hadoop . 任何人都不知道该怎么做。
我很清楚这些算法,但我需要知道如何并行化它们。

unhi4e5o

unhi4e5o1#

我会考虑将一次属性选择迭代作为一个mapreduce作业。按照这个想法,你可以在属性上分配给每个Map器来检查信息增益,在reduce阶段(使用单个reducer),你可以选择最好的属性。
如果在一台机器上(在所有属性上)单个迭代的计算比作业开始开销(大约20-40秒)稍长,我认为这种方法是可行的。

相关问题