(apachespark有一个问题,我有一个集群,有10个节点(1个主节点和9个从节点),每个节点有1048mb的内存。
我从事机器学习,所以我想并行运行我的实现,但我不能让它工作-总是有一个工人执行我提交的应用程序。
我尝试了一个简单的wordcount示例,在这个示例中我对文件进行了分区,但总是得到相同的结果。
这是我的档案 spark-env.s
h(在每个节点中):
HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
SPARK_YARN_QUEUE="default"
export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=9"
export SPARK_WORKER_OPTS="-Dspark.deploy.defaultCores=9"
SPARK_WORKER_MEMORY=1g
我试过的例子是:
val rdd = sc.textFile("path.txt" , 2 ).flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey(_+_)
rdd.saveAsTextFile(path)
//I tried 2 distribution hope see two worker execute
以下是我提交应用程序的配置:
./spark-submit --master spark://master:6066 --deploy-mode cluster --conf spark.yarn.jars=hdfs://master:9000/jars/*.jar --conf spark.default.parallelism=2 --class Accueil hdfs://master:9000/user/word2P.jar hdfs://master:9000/user/twitter.txt hdfs://master:9000/user/result
这是我执行时的spark ui:
暂无答案!
目前还没有任何答案,快来回答吧!