pyspark 如何在Jupyter Notebook中导入catboost_spark?

1hdlvixo  于 2023-03-01  发布在  Spark
关注(0)|答案(1)|浏览(211)

当前正在尝试按照www.example.com上的说明导入catboost_sparkcatboost.ai-
我正试图在亚马逊EMR上的Jupyter笔记本中运行它,但它一直给我一个ModuleNotFoundError。
任何帮助都是最好的!

uxhixvfz

uxhixvfz1#

在获取SparkSession之前,您应该通过magic %%configure添加spark config和所需的jar包:

%%configure
{
    "conf": { "spark.jars.packages": "ai.catboost:catboost-spark_3.3_2.13:1.1.1" }
}

然后,您可以调用%%spark magic来获取预定义的spark对象,该对象引用SparkSession

%%spark

您将看到以下消息:

Starting Spark application
ID  YARN Application ID             Kind    State   Spark UI    Driver log  User    Current session?
5   application_1677583254118_0006  pyspark idle    Link        Link        None    ✔
SparkSession available as 'spark'.

然后您可以导入所需的模块catboost_spark

import catboost_spark

并且导入成功

相关问题