我想了解如何设置一切能够有一个ipython笔记本和pyspark工作。
我目前有一个ec2示例。
如果我错了,告诉我,但我想我可以用这个:
./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster
(spark.apache.org)
或者这个:
aws emr create-cluster --name "Spark cluster" --release-label emr-4.1.0 --applications Name=Spark --ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance-count 3 --use-default-roles
(http://docs.aws.amazon.com/)
这两者真的有很大区别吗?
要编写和执行脚本,我应该在主节点上,对吗?
所以,我用来运行spark的ec2示例不会被使用?
(我必须在主节点上安装ipython笔记本?)
事先谢谢你的帮助。
(我找过教程,但没有找到我要找的东西。
你知道好的吗?)
1条答案
按热度按时间0ejtzxu11#
你提到的第一个教程是迄今为止我发现的最好的。我不确定你提到的两种方法有什么区别。
我曾经
./spark-ec2
成功地在ec2上构建了一个spark集群。要让它与ipython一起工作需要一些额外的安装。首先用
./spark-ec2
过程。我在以下方面取得了成功:在主节点和所有工作节点上安装anaconda和py4j。anaconda应该设置在路径的前面(例如path=/home/ec2 user/anaconda2/bin:$path)。
下一步,ssh到master,然后
$cd /root/spark
要运行:访问:8888以访问笔记本。如果您想将其公开,请在master的安全组中打开8888端口。否则,创建一个ssh隧道。