我有2-3gb的大数据集。我使用(nltk)朴素贝叶斯分类器,将数据用作训练数据。当我为小数据集运行代码时,它运行得很好,但在为大数据集运行代码时,它运行了很长时间(超过8小时),然后崩溃,没有出现太多错误。我相信是因为记忆问题。
另外,在对数据进行分类之后,我希望将分类器转储到一个文件中,以便稍后用于测试数据。这个过程也会花费太多时间,然后崩溃,因为它首先将所有内容加载到内存中。
有办法解决这个问题吗?
另一个问题是,有没有一种方法可以并行化整个操作,即使用hadoop/mapreduce这样的框架并行化这个大型数据集的分类?
1条答案
按热度按时间3xiyfsfu1#
我希望你必须动态地增加内存来克服这个问题。我希望这个链接能帮助你管理python内存
python中的并行性