scala中的spark字数(在apache沙盒中运行)

twh00eeo 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(315)

我想在scala的spark做一个字数实验室。我能够成功地将文本文件加载到变量（rdd）中，但是当我执行.flatmap、.map和reducebykey时，我会收到附加的错误消息。我是新来的，所以任何类型的帮助将不胜感激。请告诉我

2条答案

您需要给出文件的完整限定路径。由于spark构建依赖关系图并在调用操作时延迟计算，因此在尝试调用操作时会遇到错误。
最好在使用.first或.take（n）方法从hdfs读取文件之后进行调试

您的程序失败，因为它无法检测hadoop上存在的文件
需要按以下格式指定文件

sc.textFile("hdfs://namenodedetails:8020/input.txt")