pyspark 如何为“spark.sparkContext.textFile()"指定一个目录？

bxjv4tth 于 2022-11-28 发布在 Spark

关注(0)|答案(1)|浏览(131)

我已经下载了下面的代码rating.py，看看我的Spark是否正常工作。

from pyspark import SparkConf, SparkContext
import collections

conf = SparkConf().setMaster("local").setAppName("RatingsHistogram")
sc = SparkContext(conf = conf)

lines = sc.textFile("file:///SparkCourse/ml-100k/u.data")
ratings = lines.map(lambda x: x.split()[2])
result = ratings.countByValue()

sortedResults = collections.OrderedDict(sorted(result.items()))
for key, value in sortedResults.items():
    print("%s %i" % (key, value))

rating.py文件和ml-100k文件夹都在C:\\SpikeCourse目录中，代码使用下面的行加载它们：

lines = sc.textFile("file:///SparkCourse/ml-100k/u.data")

但是我不明白C:\\SpikeCourse是如何变成file:///SparkCourse/ml-100k/u.data的？或者，如果我的文件在E:\\而不是C:\\目录中，我应该如何指定？
PS：我正在使用Windows 10机器。

pyspark

来源：https://stackoverflow.com/questions/74576551/how-to-specify-a-directory-for-spark-sparkcontext-textfile

1条答案

按热度按时间

ql3eal8s1#

在Windows中，必须转义“\”
试试看：

lines = sc.textFile("C:\\SparkCourse\\ml-100k\\u.data")

赞(0）回复(0）举报 2022-11-28

我来回答

pyspark 如何为“spark.sparkContext.textFile()"指定一个目录？

1条答案

相关问题

热门标签

最新问答