我正试着用mllib中的lbfgs运行logisticregression,我遇到了许多配置单元问题:
py4j.protocol.Py4JJavaError: An error occurred while calling o337.trainLogisticRegressionModelWithLBFGS.
: org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;
事实上我甚至没有安装Hive。。。但是为什么这个功能依赖于Hive呢?文件上没有写。。。安装配置单元以运行任何mllib函数是先决条件吗?
1条答案
按热度按时间z9gpfhce1#
不需要配置单元安装,但是spark需要配置单元兼容的类来操作Dataframe对象,比如那些在ml管道步骤中的对象。
这个
pip install pyspark
例如,据我所知,这些(或任何hadoop)库都没有附带。如果您从apache站点下载了带有hadoop的spark,那么您将获得配置单元库和
bin/pyspark
脚本。不过,在windows上,可能需要设置winutils。