如何在ApacheMahout中对数字数据进行分类?

z2acfund  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(378)

我有一个数字数据集的格式 class, unigram count, bigram count, sentiment . 我浏览了一些apachemahout文档,内容都是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件,矢量化序列文件,传递给训练朴素贝叶斯分类器。但是我很难理解在mahout中分类文本数据集和分类数字数据集的区别。在我的情况下,我需要做什么不同的事情?如果有任何帮助,我将不胜感激。

jmo0nnb3

jmo0nnb31#

您可能知道,mahout不能使用文本数据来训练模型。如果你从一个数字数据集开始,分类会更容易,因为mahout处理的向量是数字数据向量。
我在文本数据集上使用mahout,我知道在这种情况下,我必须使用dictionnary将文本数据转换为数字数据。一些算法比其他算法处理得更好(例如,naivebayes非常喜欢文本数据)。
因此,在你的例子中,尝试使用其他分类器,如随机forrest或在线logistic回归,以获得更有效的结果。根据我的经验,使用random forrest,你可以定义你拥有的特征类型(在你的例子中,你所有的特征都是数字的),这样分类就很容易了。如果你想坚持朴素贝叶斯,我相信它仍然可以分类你的数字数据集,但我从来没有用过,所以我不能给更多的帮助。

相关问题