我试图在pyspark中创建一个简单的工作代码(使用livy访问spark)。我使用下面的链接作为参考。https://pylivy.readthedocs.io/en/latest/index.html
但它给出了一个错误,即Spark没有定义。
from livy import LivySession
LIVY_URL = "<Livy_URL>"
with LivySession.create(LIVY_URL) as session:
spark = SparkSession.builder.master("local").appName('file_filter').getOrCreate()
df=spark.read.option("header","true").option("inferSchema","true").csv("file_path")
#filter the rows with country = USA
session.run("filtered = df.filter(df.Country == 'USA')")
local_df = session.read("filtered")
local_df.write.format("csv").save("output_file_path")
错误
df=spark.read.option("header","true").option("inferSchema","true").csv("file_path")
NameError: name 'spark' is not defined
我认为它无法创建spark会话。需要对代码进行什么更改?
暂无答案!
目前还没有任何答案,快来回答吧!