在spark独立集群中处理来自hdfs的数据时发生块丢失异常

wtzytmuj  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(296)

我用2个worker和2个datanode在hadoop上运行spark。第一台机器包含:sparkmaster、namenode、worker-1、datanode-1。第二台机器包含:worker2,datanode2
在hadoop集群中,datanode-1的/usr目录下有两个文件:notice.txt和datanode-2的readme.txt
我想从这两个文件中创建一个rdd并计算行数。
在第一台机器上,我和master一起运行spark shellspark://masterip:7077[独立模式]
然后在scala命令行上用val rdd=sc.textfile(“/usr/”)创建rdd,但是当我执行count操作rdd.count()时,它抛出以下错误

(TID 2, masterIP, executor 1): org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-1313298757-masterIP-1499412323227:blk_1073741827_1003 file=/usr/README.txt

worker-1正在选择notice.txt,而worker-2没有选择readme.txt
我没有得到问题,任何帮助将不胜感激,谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题