pyspark mllib随机林分类器重复性问题

ijnw1ujt  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(222)

我遇到了这样的情况,我不知道pyspark随机森林分类器是怎么回事。我希望模型在相同的训练数据下是可复制的。为此,我添加了 seed 参数设置为本页建议的整数值。
https://spark.apache.org/docs/2.4.1/api/java/org/apache/spark/mllib/tree/randomforest.html.
这个 seed 参数是引导和选择特征子集的随机种子。现在,我验证了模型,它们完全相同。但问题是。
如果我对训练数据重新排序,或者简单地将其洗牌并运行训练过程(使用相同的种子值),它将生成不同的模型。有人能帮我理解这种行为吗?我认为seed用于引导和选择特性子集。如果是这样的话,是什么导致了这种随机行为?
这将是非常好的理解这一点,如果有人在那里可以帮助-这将是非常感谢。谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题