抱歉有一些语法错误和用词不当。我目前正在进行文本分类,试图对电子邮件进行分类。经过研究发现,多项朴素贝叶斯和伯努利朴素贝叶斯更常用于文本分类,伯努利朴素贝叶斯只关心单词是否出现,多项朴素贝叶斯只关心单词出现的次数。对于Gaussian Naive Bayes,通常用于连续数据和正态分布数据,例如:但是为什么我们不把高斯朴素贝叶斯应用于文本分类呢?如果我们把它应用于文本分类会发生什么不好的事情吗?
wztqucjr1#
我们使用基于数据集类型的算法-
Bernoulli Naive bayes擅长处理布尔/二进制属性,而Multinomial Naive bayes擅长处理离散值,Gaussian Naive bayes擅长处理连续值。
考虑三种情况:1.考虑一个数据集,其中包含has_diabetes、has_bp、has_thyroid等列,然后将该人分为健康或不健康。在这种情况下,Bernoulli NB将很好地工作。1.考虑一个数据集,其中有不同学科的不同学生的分数,你想预测这个学生是否聪明,那么在这种情况下,多项式NB将工作得很好。1.考虑一个有学生体重的数据集,你要预测他们的身高,那么GaussiaNB在这种情况下会很好。
has_diabetes
has_bp
has_thyroid
zzlelutf2#
贝叶斯分类器使用概率规则,您提到的三个规则与以下规则相关:
你必须选择概率规则来使用关于你所拥有的数据(或尝试所有它们)。我认为你在网站上或研究论文中读到的内容与电子邮件数据通常遵循伯努利或多项分布这一事实有关。你可以,我鼓励你尝试使用高斯分布,你应该很快就能弄清楚你的数据是否可以拟合高斯分布。然而,我建议你阅读上面的链接,如果你对解决方案A或B比解决方案C更好的原因有一个感觉,你会对你的工作有一个更好的理解。
2条答案
按热度按时间wztqucjr1#
我们使用基于数据集类型的算法-
Bernoulli Naive bayes擅长处理布尔/二进制属性,而Multinomial Naive bayes擅长处理离散值,Gaussian Naive bayes擅长处理连续值。
考虑三种情况:
1.考虑一个数据集,其中包含
has_diabetes
、has_bp
、has_thyroid
等列,然后将该人分为健康或不健康。在这种情况下,Bernoulli NB将很好地工作。1.考虑一个数据集,其中有不同学科的不同学生的分数,你想预测这个学生是否聪明,那么在这种情况下,多项式NB将工作得很好。
1.考虑一个有学生体重的数据集,你要预测他们的身高,那么GaussiaNB在这种情况下会很好。
zzlelutf2#
贝叶斯分类器使用概率规则,您提到的三个规则与以下规则相关:
你必须选择概率规则来使用关于你所拥有的数据(或尝试所有它们)。
我认为你在网站上或研究论文中读到的内容与电子邮件数据通常遵循伯努利或多项分布这一事实有关。你可以,我鼓励你尝试使用高斯分布,你应该很快就能弄清楚你的数据是否可以拟合高斯分布。
然而,我建议你阅读上面的链接,如果你对解决方案A或B比解决方案C更好的原因有一个感觉,你会对你的工作有一个更好的理解。