我使用mahout的naivebayes算法将amazon评论分为正面评论和负面评论。
数据集不是均匀分布的。正面的评价远多于负面的评价。随机抽取的测试集和训练集使用随机抽取的元组进行mahout分割,可以获得很好的阳性分类结果,但假阳性率也很高。负面评论很少被归类为负面评论。
我想一个分布均匀、正负元组数目相等的训练集可以解决这个问题。
我尝试过使用mahout split和这些选项,然后切换训练和测试,但这似乎只为一个类生成元组。
--testSplitSize (-ss) testSplitSize The number of documents
held back as test data for
each category
--testSplitPct (-sp) testSplitPct The % of documents held
back as test data for each
category
--splitLocation (-sl) splitLocation Location for start of test
data expressed as a
percentage of the input
file size (0=start,
50=middle, 100=end
有没有一种方法与马霍特分裂或其他获得适当的训练集?
1条答案
按热度按时间mkshixfv1#
我想说的是,训练和测试集应该能反映人口不足的情况。我不会创建一个正面和负面评价相同的测试集。
更好的解决方案可能是通过引导创建多个集合。让委员会投票来改善你的结果。