我试图为一个具体的问题选择最好的预测/分类模型。我被要求遵循的方法是这样的:
- 将数据分为测试和训练。
- 使用训练数据运行一个具体的模型,并使用10倍交叉验证对其进行评估,以获得该模型的最佳参数(评估给定的误差)。
- 对其他模型重复此操作,直到我为每个所选分类模型找到最佳配置。
- 最后,我必须使用最佳参数集重新运行每个模型,其中要训练的数据是“trainingdata”,并且作为结果给出的错误可能来自“testdata”(请注意,测试数据到现在为止尚未使用,以避免最终比较的失真)。
我一直在使用TunePareto包来做这件事,它有一个很好的,易于运行的函数来运行一些分类模型(如Naive Byes或kNN)沿着 Dataframe 上的10倍CV。问题出现在我提到的最后一个任务中:我不知道如何使用特定的dataframe作为TunePareto的测试。有人能帮我一下吗?
我搜索了一些例子,但什么也没找到。如果TunePareto不允许这样做,我很乐意听取替代方案。
1条答案
按热度按时间i7uq4tfw1#
From the documentation,函数
tuneParetoClassifier
似乎有一个参数testDataName
,您可以在其中提供独立的测试数据集。下面是函数的定义: