在spark独立集群中处理来自hdfs的数据时发生块丢失异常

wtzytmuj 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(296)

我用2个worker和2个datanode在hadoop上运行spark。第一台机器包含：sparkmaster、namenode、worker-1、datanode-1。第二台机器包含：worker2，datanode2
在hadoop集群中，datanode-1的/usr目录下有两个文件：notice.txt和datanode-2的readme.txt
我想从这两个文件中创建一个rdd并计算行数。
在第一台机器上，我和master一起运行spark shellspark://masterip：7077[独立模式]
然后在scala命令行上用val rdd=sc.textfile（“/usr/”）创建rdd，但是当我执行count操作rdd.count（）时，它抛出以下错误

(TID 2, masterIP, executor 1): org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block: BP-1313298757-masterIP-1499412323227:blk_1073741827_1003 file=/usr/README.txt

worker-1正在选择notice.txt，而worker-2没有选择readme.txt
我没有得到问题，任何帮助将不胜感激，谢谢

hadoop scala apache-spark apache-spark-standalone

来源：https://stackoverflow.com/questions/45056737/block-missing-exception-while-processing-the-data-from-hdfs-in-spark-standalone

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在spark独立集群中处理来自hdfs的数据时发生块丢失异常

暂无答案！

相关问题

热门标签

最新问答