pyspark：配置单元问题

ff29svar 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(305)

我正试着用mllib中的lbfgs运行logisticregression，我遇到了许多配置单元问题：

py4j.protocol.Py4JJavaError: An error occurred while calling o337.trainLogisticRegressionModelWithLBFGS.
: org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient;

事实上我甚至没有安装Hive。。。但是为什么这个功能依赖于Hive呢？文件上没有写。。。安装配置单元以运行任何mllib函数是先决条件吗？

Hive python apache-spark pyspark

来源：https://stackoverflow.com/questions/51602842/pyspark-on-windows-hive-issues

1条答案

按热度按时间

z9gpfhce1#

不需要配置单元安装，但是spark需要配置单元兼容的类来操作Dataframe对象，比如那些在ml管道步骤中的对象。
这个 pip install pyspark 例如，据我所知，这些（或任何hadoop）库都没有附带。
如果您从apache站点下载了带有hadoop的spark，那么您将获得配置单元库和 bin/pyspark 脚本。不过，在windows上，可能需要设置winutils。

赞(0）回复(0）举报 2021-06-26

我来回答

pyspark：配置单元问题

1条答案

相关问题

热门标签

最新问答