我正在13mb的数据集上使用SparkML(有50k行的搅动数据集)和带参数网格的gbm,已经用了两个半小时了,它还在工作。我认为它不应该花那么长时间,我想知道问题是否是我的代码,因为我是一个非常新的Spark。
splits = final_df.randomSplit([0.70,0.30])
train_df=splits[0]
test_df=splits[1]
gbm= GBTClassifier(maxIter= 10, featuresCol= "features", labelCol="label")
evaluator= BinaryClassificationEvaluator()
paramGrid= (ParamGridBuilder()
.addGrid(gbm.maxDepth, [2,4,6])
.addGrid(gbm.maxBins,[20,30])
.addGrid(gbm.maxIter, [10,20])
.build())
cv= CrossValidator(estimator= gbm, estimatorParamMaps= paramGrid, evaluator=evaluator, numFolds=3)
cvModel=cv.fit(train_df)
predictions=cvModel.transform(test_df)
暂无答案!
目前还没有任何答案,快来回答吧!