我一直在使用mahout的0.9朴素贝叶斯算法对文档数据进行分类。对于一个特定的序列(2/3的数据)和测试(1/3的数据)集,我得到的准确率在86%的范围内。当我转到spark的mllib时,准确率降到了82%。在这两种情况下都使用标准分析仪。
mllib链接:https://spark.apache.org/docs/latest/mllib-naive-bayes.html mahout链接:http://mahout.apache.org/users/classification/bayesian.html
请帮助我在这方面,因为我必须使用Spark在生产系统很快,这是一个拦路虎为我。
我发现了一个问题,mllib在数据分类方面比mahout花费更多的时间。
有谁能帮我提高使用mllib朴素贝叶斯的准确性。
暂无答案!
目前还没有任何答案,快来回答吧!