当前正在尝试按照www.example.com上的说明导入catboost_sparkcatboost.ai-我正试图在亚马逊EMR上的Jupyter笔记本中运行它,但它一直给我一个ModuleNotFoundError。任何帮助都是最好的!
uxhixvfz1#
在获取SparkSession之前,您应该通过magic %%configure添加spark config和所需的jar包:
SparkSession
%%configure
jar
%%configure { "conf": { "spark.jars.packages": "ai.catboost:catboost-spark_3.3_2.13:1.1.1" } }
然后,您可以调用%%spark magic来获取预定义的spark对象,该对象引用SparkSession:
%%spark
spark
您将看到以下消息:
Starting Spark application ID YARN Application ID Kind State Spark UI Driver log User Current session? 5 application_1677583254118_0006 pyspark idle Link Link None ✔ SparkSession available as 'spark'.
然后您可以导入所需的模块catboost_spark:
catboost_spark
import catboost_spark
并且导入成功
1条答案
按热度按时间uxhixvfz1#
在获取
SparkSession
之前,您应该通过magic%%configure
添加spark config和所需的jar
包:然后,您可以调用
%%spark
magic来获取预定义的spark
对象,该对象引用SparkSession
:您将看到以下消息:
然后您可以导入所需的模块
catboost_spark
:并且导入成功