mahout:如何分割成均匀分布的训练集

l7mqbcuq  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(451)

我使用mahout的naivebayes算法将amazon评论分为正面评论和负面评论。
数据集不是均匀分布的。正面的评价远多于负面的评价。随机抽取的测试集和训练集使用随机抽取的元组进行mahout分割,可以获得很好的阳性分类结果,但假阳性率也很高。负面评论很少被归类为负面评论。
我想一个分布均匀、正负元组数目相等的训练集可以解决这个问题。
我尝试过使用mahout split和这些选项,然后切换训练和测试,但这似乎只为一个类生成元组。

--testSplitSize (-ss) testSplitSize               The number of documents
                                                 held back as test data for
                                                 each category
 --testSplitPct (-sp) testSplitPct                  The % of documents held
                                                 back as test data for each
                                                 category
 --splitLocation (-sl) splitLocation                Location for start of test
                                                 data expressed as a
                                                 percentage of the input
                                                 file size (0=start,
                                                 50=middle, 100=end

有没有一种方法与马霍特分裂或其他获得适当的训练集?

mkshixfv

mkshixfv1#

我想说的是,训练和测试集应该能反映人口不足的情况。我不会创建一个正面和负面评价相同的测试集。
更好的解决方案可能是通过引导创建多个集合。让委员会投票来改善你的结果。

相关问题