如何在ApacheMahout中对数字数据进行分类？

z2acfund 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(383)

我有一个数字数据集的格式 class, unigram count, bigram count, sentiment . 我浏览了一些apachemahout文档，内容都是关于文本数据的。我知道我需要执行3个步骤来分类：转换为序列文件，矢量化序列文件，传递给训练朴素贝叶斯分类器。但是我很难理解在mahout中分类文本数据集和分类数字数据集的区别。在我的情况下，我需要做什么不同的事情？如果有任何帮助，我将不胜感激。

Java hadoop machine-learning classification mahout

来源：https://stackoverflow.com/questions/25839302/how-do-i-classify-numerical-data-in-apache-mahout

1条答案

按热度按时间

jmo0nnb31#

您可能知道，mahout不能使用文本数据来训练模型。如果你从一个数字数据集开始，分类会更容易，因为mahout处理的向量是数字数据向量。
我在文本数据集上使用mahout，我知道在这种情况下，我必须使用dictionnary将文本数据转换为数字数据。一些算法比其他算法处理得更好（例如，naivebayes非常喜欢文本数据）。
因此，在你的例子中，尝试使用其他分类器，如随机forrest或在线logistic回归，以获得更有效的结果。根据我的经验，使用random forrest，你可以定义你拥有的特征类型（在你的例子中，你所有的特征都是数字的），这样分类就很容易了。如果你想坚持朴素贝叶斯，我相信它仍然可以分类你的数字数据集，但我从来没有用过，所以我不能给更多的帮助。

赞(0）回复(0）举报 2021-05-30

我来回答

如何在ApacheMahout中对数字数据进行分类？

1条答案

相关问题

热门标签

最新问答