使用预测模型和TunePareto包测试和训练数据集

hs1ihplo  于 2023-05-20  发布在  其他
关注(0)|答案(1)|浏览(154)

我试图为一个具体的问题选择最好的预测/分类模型。我被要求遵循的方法是这样的:

  • 将数据分为测试和训练。
  • 使用训练数据运行一个具体的模型,并使用10倍交叉验证对其进行评估,以获得该模型的最佳参数(评估给定的误差)。
  • 对其他模型重复此操作,直到我为每个所选分类模型找到最佳配置。
  • 最后,我必须使用最佳参数集重新运行每个模型,其中要训练的数据是“trainingdata”,并且作为结果给出的错误可能来自“testdata”(请注意,测试数据到现在为止尚未使用,以避免最终比较的失真)。

我一直在使用TunePareto包来做这件事,它有一个很好的,易于运行的函数来运行一些分类模型(如Naive Byes或kNN)沿着 Dataframe 上的10倍CV。问题出现在我提到的最后一个任务中:我不知道如何使用特定的dataframe作为TunePareto的测试。有人能帮我一下吗?
我搜索了一些例子,但什么也没找到。如果TunePareto不允许这样做,我很乐意听取替代方案。

i7uq4tfw

i7uq4tfw1#

From the documentation,函数tuneParetoClassifier似乎有一个参数testDataName,您可以在其中提供独立的测试数据集。下面是函数的定义:

tuneParetoClassifier(name, classifier, classifierParamNames = NULL, predefinedClassifierParams = NULL, predictor = NULL, predictorParamNames = NULL, predefinedPredictorParams = NULL, useFormula = FALSE, formulaName = "formula", trainDataName = "x", trainLabelName = "y", testDataName = "newdata", modelName = "object", requiredPackages = NULL)

相关问题