如何在python中为大型数据集生成naivebayes分类器

n6lpvg4x 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(311)

我有2-3gb的大数据集。我使用（nltk）朴素贝叶斯分类器，将数据用作训练数据。当我为小数据集运行代码时，它运行得很好，但在为大数据集运行代码时，它运行了很长时间（超过8小时），然后崩溃，没有出现太多错误。我相信是因为记忆问题。
另外，在对数据进行分类之后，我希望将分类器转储到一个文件中，以便稍后用于测试数据。这个过程也会花费太多时间，然后崩溃，因为它首先将所有内容加载到内存中。
有办法解决这个问题吗？
另一个问题是，有没有一种方法可以并行化整个操作，即使用hadoop/mapreduce这样的框架并行化这个大型数据集的分类？

hadoop mapreduce python

来源：https://stackoverflow.com/questions/26771762/how-to-make-naive-bayes-classifier-for-large-datasets-in-python