我正试图实现一些nlp的东西使用流mapreduce的一些本科工作。我觉得我的大部分代码都是正确的,但是我在使用sklearn模块时遇到了一些问题。我用的是水蟒,我已经在当地测试过了,效果很好。我使用的一个虚拟机(udacity教程)也有类似的问题,但它在从anaconda导入的任何东西上都会失败,比如scipy或numpy。我目前的Map没有问题,使用这些,它只是当sklearn是进口崩溃。具体来说,从日志文件:
文件“/…/./tokenize\u mapper.py”,第12行,来自sklearn.feature\u extraction.text import tfidfvectorizer importerror:没有名为sklearn.feature\u extraction.text的模块
我的Map器如下所示:
# !/usr/bin/env python
import sys
import scipy.sparse
import numpy
import cPickle as pickle
from sklearn.feature_extraction.text import TfidfVectorizer #breaks here
for line in sys.stdin:
#Some Stuff
我可以让它很好地工作,只要我排除了进口sklearn行。我很好奇是否有人对为什么会这样有什么建议?如果水蟒带的图书馆都没用的话,我会理解的。我在10.9.3的mac上运行hadoop(伪分布式模式)2.4.0,我的sklearn版本是'0.14.1',我使用的是Python2.7
暂无答案!
目前还没有任何答案,快来回答吧!