pyspark 如何为“spark.sparkContext.textFile()"指定一个目录?

bxjv4tth  于 2022-11-28  发布在  Spark
关注(0)|答案(1)|浏览(131)

我已经下载了下面的代码rating.py,看看我的Spark是否正常工作。

from pyspark import SparkConf, SparkContext
import collections

conf = SparkConf().setMaster("local").setAppName("RatingsHistogram")
sc = SparkContext(conf = conf)

lines = sc.textFile("file:///SparkCourse/ml-100k/u.data")
ratings = lines.map(lambda x: x.split()[2])
result = ratings.countByValue()

sortedResults = collections.OrderedDict(sorted(result.items()))
for key, value in sortedResults.items():
    print("%s %i" % (key, value))

rating.py文件和ml-100k文件夹都在C:\\SpikeCourse目录中,代码使用下面的行加载它们:

lines = sc.textFile("file:///SparkCourse/ml-100k/u.data")

但是我不明白C:\\SpikeCourse是如何变成file:///SparkCourse/ml-100k/u.data的?或者,如果我的文件在E:\\而不是C:\\目录中,我应该如何指定?
PS:我正在使用Windows 10机器。

ql3eal8s

ql3eal8s1#

在Windows中,必须转义“\”
试试看:

lines = sc.textFile("C:\\SparkCourse\\ml-100k\\u.data")

相关问题