gbm参数花费了太多时间

xxslljrj  于 2021-05-19  发布在  Spark
关注(0)|答案(0)|浏览(353)

我正在13mb的数据集上使用SparkML(有50k行的搅动数据集)和带参数网格的gbm,已经用了两个半小时了,它还在工作。我认为它不应该花那么长时间,我想知道问题是否是我的代码,因为我是一个非常新的Spark。

splits = final_df.randomSplit([0.70,0.30])
train_df=splits[0]
test_df=splits[1]
gbm= GBTClassifier(maxIter= 10, featuresCol= "features", labelCol="label")   
evaluator= BinaryClassificationEvaluator()
        paramGrid= (ParamGridBuilder()
                   .addGrid(gbm.maxDepth, [2,4,6])
                   .addGrid(gbm.maxBins,[20,30])
                   .addGrid(gbm.maxIter, [10,20])
                   .build())
cv= CrossValidator(estimator= gbm, estimatorParamMaps= paramGrid, evaluator=evaluator, numFolds=3)

        cvModel=cv.fit(train_df)
        predictions=cvModel.transform(test_df)

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题