有人在emr上试用过ApacheGiraph吗?在我看来,在emr上运行的唯一要求是向作业流配置中添加适当的引导脚本。然后我只需要使用一个标准的自定义jar启动步骤来启动giraph runner,并为我的giraph程序提供适当的参数。任何文件/教程或如果你能分享你的经验,与吉拉夫对电子病历,将不胜感激。
eit6fx6z1#
是的,我定期在emr上运行giraph作业,但我不使用“作业流”,我手动登录到主节点,并将其作为普通hadoop集群使用(我只使用 hadoop jar 命令)。是的,您需要添加引导脚本来运行zookeeper,并将zookeeper详细信息添加到核心站点配置中。我是这样做的:引导操作-Configure Hadoop s3://elasticmapreduce/bootstrap-actions/configure-hadoop --site-key-value, io.file.buffer.size=65536, --core-key-value, giraph.zkList=localhost:2181, --mapred-key-value, mapreduce.job.counters.limit=1200 Run if s3://elasticmapreduce/bootstrap-actions/run-if instance.isMaster=true, s3://hpc-chikitsa/zookeeper_install.sh zookeeper\u install.sh的内容包括:
hadoop jar
Run if s3://elasticmapreduce/bootstrap-actions/run-if instance.isMaster=true, s3://hpc-chikitsa/zookeeper_install.sh
# !/bin/bash wget --no-check-certificate http://apache.mesi.com.ar/zookeeper/zookeeper3.4./zookeeper3.4.5.tar.gz tar zxvf zookeeper-3.4.5.tar.gz cd zookeeper-3.4.5 mv conf/zoo_sample.cfg conf/zoo.cfg sudo bin/zkServer.sh start
然后将giraphjar文件复制到主节点(使用scp),然后将ssh复制到主节点并使用提交作业 hadoop jar 命令。希望有帮助。以下是giraph用户邮件列表上的相关邮件线程:https://www.mail-archive.com/user%40giraph.apache.org/msg01240.html
1条答案
按热度按时间eit6fx6z1#
是的,我定期在emr上运行giraph作业,但我不使用“作业流”,我手动登录到主节点,并将其作为普通hadoop集群使用(我只使用
hadoop jar
命令)。是的,您需要添加引导脚本来运行zookeeper,并将zookeeper详细信息添加到核心站点配置中。我是这样做的:
引导操作-
Configure Hadoop s3://elasticmapreduce/bootstrap-actions/configure-hadoop --site-key-value, io.file.buffer.size=65536, --core-key-value, giraph.zkList=localhost:2181, --mapred-key-value, mapreduce.job.counters.limit=1200
Run if s3://elasticmapreduce/bootstrap-actions/run-if instance.isMaster=true, s3://hpc-chikitsa/zookeeper_install.sh
zookeeper\u install.sh的内容包括:然后将giraphjar文件复制到主节点(使用scp),然后将ssh复制到主节点并使用提交作业
hadoop jar
命令。希望有帮助。
以下是giraph用户邮件列表上的相关邮件线程:
https://www.mail-archive.com/user%40giraph.apache.org/msg01240.html