入门-spark,ipython笔记本和pyspark

xwbd5t1u  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(353)

我想了解如何设置一切能够有一个ipython笔记本和pyspark工作。
我目前有一个ec2示例。
如果我错了,告诉我,但我想我可以用这个:

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster

(spark.apache.org)
或者这个:

aws emr create-cluster --name "Spark cluster" --release-label emr-4.1.0 --applications Name=Spark --ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance-count 3 --use-default-roles

(http://docs.aws.amazon.com/)
这两者真的有很大区别吗?
要编写和执行脚本,我应该在主节点上,对吗?
所以,我用来运行spark的ec2示例不会被使用?
(我必须在主节点上安装ipython笔记本?)
事先谢谢你的帮助。
(我找过教程,但没有找到我要找的东西。
你知道好的吗?)

0ejtzxu1

0ejtzxu11#

你提到的第一个教程是迄今为止我发现的最好的。我不确定你提到的两种方法有什么区别。
我曾经 ./spark-ec2 成功地在ec2上构建了一个spark集群。要让它与ipython一起工作需要一些额外的安装。
首先用 ./spark-ec2 过程。我在以下方面取得了成功:
在主节点和所有工作节点上安装anaconda和py4j。anaconda应该设置在路径的前面(例如path=/home/ec2 user/anaconda2/bin:$path)。
下一步,ssh到master,然后 $cd /root/spark 要运行:

MASTER=spark://<public DNS>:7077 PYSPARK_PYTHON=~/anaconda2/bin/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook  --ip="*"' ./bin/pyspark

访问:8888以访问笔记本。如果您想将其公开,请在master的安全组中打开8888端口。否则,创建一个ssh隧道。

相关问题