scala中的spark字数(在apache沙盒中运行)

twh00eeo  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(315)

我想在scala的spark做一个字数实验室。我能够成功地将文本文件加载到变量(rdd)中,但是当我执行.flatmap、.map和reducebykey时,我会收到附加的错误消息。我是新来的,所以任何类型的帮助将不胜感激。请告诉我

oknrviil

oknrviil1#

您需要给出文件的完整限定路径。由于spark构建依赖关系图并在调用操作时延迟计算,因此在尝试调用操作时会遇到错误。
最好在使用.first或.take(n)方法从hdfs读取文件之后进行调试

muk1a3rh

muk1a3rh2#

您的程序失败,因为它无法检测hadoop上存在的文件
需要按以下格式指定文件

sc.textFile("hdfs://namenodedetails:8020/input.txt")

相关问题