我已经下载了下面的代码rating.py
,看看我的Spark
是否正常工作。
from pyspark import SparkConf, SparkContext
import collections
conf = SparkConf().setMaster("local").setAppName("RatingsHistogram")
sc = SparkContext(conf = conf)
lines = sc.textFile("file:///SparkCourse/ml-100k/u.data")
ratings = lines.map(lambda x: x.split()[2])
result = ratings.countByValue()
sortedResults = collections.OrderedDict(sorted(result.items()))
for key, value in sortedResults.items():
print("%s %i" % (key, value))
rating.py
文件和ml-100k
文件夹都在C:\\SpikeCourse
目录中,代码使用下面的行加载它们:
lines = sc.textFile("file:///SparkCourse/ml-100k/u.data")
但是我不明白C:\\SpikeCourse
是如何变成file:///SparkCourse/ml-100k/u.data
的?或者,如果我的文件在E:\\
而不是C:\\
目录中,我应该如何指定?
PS:我正在使用Windows 10机器。
1条答案
按热度按时间ql3eal8s1#
在Windows中,必须转义“\”
试试看: