sklearn和hadoop导入错误

mqxuamgl 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(228)

我正试图实现一些nlp的东西使用流mapreduce的一些本科工作。我觉得我的大部分代码都是正确的，但是我在使用sklearn模块时遇到了一些问题。我用的是水蟒，我已经在当地测试过了，效果很好。我使用的一个虚拟机（udacity教程）也有类似的问题，但它在从anaconda导入的任何东西上都会失败，比如scipy或numpy。我目前的Map没有问题，使用这些，它只是当sklearn是进口崩溃。具体来说，从日志文件：
文件“/…/./tokenize\u mapper.py”，第12行，来自sklearn.feature\u extraction.text import tfidfvectorizer importerror:没有名为sklearn.feature\u extraction.text的模块
我的Map器如下所示：


# !/usr/bin/env python

import sys
import scipy.sparse
import numpy
import cPickle as pickle
from sklearn.feature_extraction.text import TfidfVectorizer #breaks here

for line in sys.stdin:
    #Some Stuff

我可以让它很好地工作，只要我排除了进口sklearn行。我很好奇是否有人对为什么会这样有什么建议？如果水蟒带的图书馆都没用的话，我会理解的。我在10.9.3的mac上运行hadoop（伪分布式模式）2.4.0，我的sklearn版本是'0.14.1'，我使用的是Python2.7

hadoop python scikit-learn hadoop-streaming

来源：https://stackoverflow.com/questions/23835519/sklearn-and-hadoop-import-error

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

sklearn和hadoop导入错误

暂无答案！

相关问题

热门标签

最新问答