我正在pyspark中试验一个集群模型。我试图得到聚类的均方代价,适合不同的k值
def meanScore(k,df):
inputCol = df.columns[:38]
assembler = VectorAssembler(inputCols=inputCols,outputCol="features")
kmeans = KMeans().setK(k)
pipeModel2 = Pipeline(stages=[assembler,kmeans])
kmeansModel = pipeModel2.fit(df).stages[-1]
kmeansModel.computeCost(assembler.transform(df))/data.count()
当我试图调用这个函数来计算Dataframe中k的不同值的开销时
for k in range(20,100,20):
sc = meanScore(k,numericOnly)
print((k,sc))
我作为attributeerror接收到属性错误:“kmeansmodel”对象没有属性“computecost”
我对pyspark还比较陌生,只是在学习,我真诚地感谢您对我的帮助。谢谢
暂无答案!
目前还没有任何答案,快来回答吧!