带标记点的scala多类分类

uttx8gqw  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(228)

我有一个多类分类问题,我想用逻辑回归来分类。我知道决策树和随机林也可以解决这个问题,但我希望特别使用“logisticregressionwithlbfgs”。我把所有的资料整理好了。我在一个dataframe中有一个整洁的数据:label字段(字符串)、一个feature向量(features/numbers向量)和第三列“labelindex”(表示类的数字)。
当我在Dataframe上进行列车测试时,将其拆分并尝试将其适配为:logisticsregressionwithlbfgs

val model = new LogisticRegressionWithLBFGS().setNumClasses(10).setIntercept(true).setValidateData(true).run("trainingData")

它不喜欢“跑”的部分。
我正在处理的示例通过以下方式加载数据文件:

val data = MLUtils.loadLibSVMFile(Spark.sparkContext, "data/mnist.bz2")

(我试图复制这个示例,并插入我自己的数据。但是它的格式不同,看起来也不一样等等)我读了一些东西,我发现,我需要把我的Dataframe转换成rdd(标签点)。我需要绘制Map。
我很难找到好的信息如何做到这一点。
如何简单地将上面描述的带有3个字段的Dataframe“label”(string)、“features”(feature vector)、“indexedlabel”(double)转换成rdd[标签点]?

7eumitmz

7eumitmz1#

成功了:
无法将Dataframe转换为标记点
这个链接向我展示了如何成功地进行转换。

相关问题